Menu
Menu
Menu

Image Classificatie

Image Classificatie

Het volledig geautomatiseerd classificeren van gescande documenten kan erg moeilijk zijn. Enerzijds is de inspanning om tot een configuratie te komen er tijdrovend en gevoelig voor (constant) onderhoud. Anderzijds zijn de images van de gescande documenten van een dergelijke slechte kwaliteit dat met standaard tools er geen tekstherkenning (OCR) op kan worden gedaan. Dit laatste is vooral van toepassing op images van 20 tot 5 jaar geleden, of op documenten die met een SmartPhone zijn gefotografeerd. De resultaten zijn dan zo slecht dat volledige manuele interactie nodig is.

Migrato heeft nu in samenwerking met een van de meest toonaangevende leveranciers op OCR herkenning en de Xillio tooling een dienst ontwikkeld die tot verbluffende resultaten komt. Door de hoge nauwkeurigheid van de OCR, gericht op Nederlands taalgebruik, kan de classificatie daarna zeer goed worden gedaan. De Migrato dienst omvat de volgendeĀ 4 activiteiten.

  1. Image conversie naar PDF en tekstherkenning
    Dit is een volledig geautomatiseerde stap. De converter worden images aangeboden die uit een elektronisch archief komen, digitale postkamer of via een portaal upload. De images worden omgezet naar PDF met een tekstherkenning. Er vindt verder geen correctie plaats op de tekstherkenning. Dat is niet nodig voor de classificatie.
  2. Classificatie tegen testset
    De tweede stap is de geautomatiseerde classificatie van de PDF documenten tegen een testset. De testset is gevoed met elk tussen de 30 en 50 documenten per documentsoort. De classificatie zal elk document daarna via deĀ testset een best guess waarde teruggeven. Enerzijds de documentsoort, maar anderzijds ook de mate van betrouwbaarheid. Op basis van deze laatste waarde kan dan een besluit worden genomen of het document daadwerkelijk tot dit type behoort.
  3. Classificatie op basis van steekwoorden
    De derde actie is afhankelijk van de voorgaande stap. Als daar al met voldoende betrouwbaarheid is geconstateerd dat het document een bepaald type is, kan deze stap worden overgeslagen. Is er een mate van onduidelijkheid, wordt de tekst verder inhoudelijk bekeken en tegen organisatie of document specifieke regels getoetst. Het resultaat is een classificatie op steekwoorden op de eerste of verdere pagina’s. Dit classificatieresultaat kan dan worden geverifieerd en apart worden toegekend.
  4. Metadata verrijking
    Op basis van de tekst en de structuur van een documenttype kan er ook nadere metadata worden opgehaald. Zoals NAW gegevens, polisnummers, klantnummers, leverancier, etc. De metadata wordt samen met de classificatie in een apart bestand (CSV, XML) ter beschikking gesteld voor de verdere verwerking. Migrato levert de PDF met tekstlaag en de classificatie resultaten op voor import.

Migrato biedt de dienst aan als een on-site implementatie maar kan ook via een off-site (s)FTP verbinding worden aangeroepen. De toepassing wordt dan bij Migrato uitgevoerd en wordt afgerekend op basis van een pay per use model.

De resultaten die tot op heden zijn behaald met deze vorm van classificatie liggen tussen de 65 en 85 procent volledige en juiste automatische classificatie. Wilt u meer weten over deze dienstverlening en de mogelijkheden voor uw oude image archief of toenemende upload volume; stuur ons een e-mail (info@migrato.nl) of bel ons op 06 – 507.34.796.

Migrato heeft o.a. de volgende klanten geholpen met het verrijken van hun kennis!