Co sprawia najwięcej problemów programom do OCR?
REKLAMA
REKLAMA
Oprócz fikuśnych czcionek i wielu stron, programy do OCR nie najlepiej radzą sobie z fachowymi terminami i językami obcymi. Najpopularniejsze programy do OCR zawierają słowniki do wielu języków obcych i radzą sobie z popularnymi zapożyczeniami i terminami fachowymi. Niestety niektóre wyrazy mogą sprawić programom do OCR sporo trudności. Nawet, jeśli program rozpozna wszystkie znaki frazy "kwas dezoksyrybonukleinowy", to będzie to dopiero połowa sukcesu.
REKLAMA
REKLAMA
Problem pojawi się w momencie, gdy dane słowo nie występuje w słowniku programu. Na szczęście w takim momencie programy do OCR wyróżniają takie słowo, aby użytkownik w razie potrzeby mógł skorygować je ręcznie. Osoby pracujące z tekstami zawierającymi dużo słownictwa specjalistycznego powinny używać programu do rozpoznawania tekstu ze słownikiem użytkownika, który można uzupełniać o nowe pojęcia, dodając skomplikowane wyrazy do słownika programu.
Kolejnym problemem mogą być brudne, zanieczyszczone lub wielokrotnie kopiowane strony z tekstem. W takim przypadku program do OCR może po prostu zgłupieć. Wystarczy mała plamka z kawy lub kropla atramentu na wydruku, a z litery O zrobi się nagle liter Ó lub Q. Aby uniknąć takich sytuacji, zaawansowane programy do OCR wyposażone są w mechanizmy korekcji, które automatycznie rozpoznają zabrudzenia i usuwają je z cyfrowego obrazu. Niestety w wielu przypadkach, gdy strona jest mocno zanieczyszczona, funkcja ta i tak nie spełni w 100% swojego zadania.
Polecamy: Czy za wysyłanie spamu firmie grozi kara grzywny?
REKLAMA
Kolejne problemy mogą pojawić się przy rozpoznawaniu tekstu na ilustracjach. Podczas analizy layoutu programy badają, w których częściach znajduje się tekst, a gdzie zbędne z punktu widzenia rozpoznawania tekstu zdjęcia. W niektórych przypadkach program powinien jednak uwzględniać również ilustracje. Przydaje się to w momencie, gdy w późniejszym czasie będziemy chcieli dopasować podpisy do zastosowanych grafik.
Profesjonalne programy do OCR mają funkcję rozpoznawania tekstów zamieszczonych na zdjęciach. Program robi to metodą wyrywkowych próbek. Polega to na tym, że jeśli program rozpozna na stronie element, który mógłby być tekstem, testuje go metodą rozpoznawania znaków. Jeśli test da pozytywny wynik, program może zarejestrować również te teksty nadrukowane na zdjęciach. Niestety działa to dość wybiórczo, a skuteczność rozpoznawania zależy od jakości zdjęcia i widoczności tekstu na fotografii.
Sporo problemów sprawiają również tabele, które część programów do OCR rozpoznaje, jako mieszanina tekstu i obrazu. Aby program do OCR rozpoznał prawidłowo jak najwięcej wpisów do tabeli, programiści dodają do niego specjalne moduły do rozpoznawania tabel. Program rozpoznaje tabelę po liniach siatki, poprawnie odczytane tabele można później edytować w Excelu lub Wordzie.
Zobacz również: Microsoft Office 2010 – jak się odnaleźć po przesiadce z Office 2003?
Rozpoznawanie tekstu za pomocą programów OCR i skanera to świetne rozwiązanie szczególnie w firmach, w których codziennie przepisuje się lub archiwizuje duże ilości dokumentów. OCR jest w stanie zaoszczędzić mnóstwo czasu i jednocześnie zwiększyć wydajność o kilkaset procent w skali miesiąca.
REKLAMA
REKLAMA
© Materiał chroniony prawem autorskim - wszelkie prawa zastrzeżone. Dalsze rozpowszechnianie artykułu za zgodą wydawcy INFOR PL S.A.