Dlaczego rozpoznawanie tekstu jest pracochłonne?
REKLAMA
REKLAMA
Zacznijmy od początku, a mianowicie od nietypowego kierunku tekstu, który ma znaczący wpływ na cały proces rozpoznawania tekstu. Teksty o nietypowym formacie, przebiegające na przykład w poprzek strony, mogą zakłócić proces rozpoznawania tekstu. W związku z tym, program OCR musi najpierw poznać układ tekstu, aby przejść do dalszych etapów. Jeśli strona jest zeskanowana do góry nogami lub krzywo, program automatycznie przywróci jej prawidłowe ustawienie. Niestety wszystkie te operacje wymagają sporych zasobów komputera, i w przypadku słabszych maszyn działają dość wolno.
REKLAMA
Zobacz również: Sklepy internetowe i serwisy społecznościowe – dobre połączenie?
Największym wyzwaniem dla programów OCR i oczywiście dla komputera jest rozpoznawanie wielu stron z rzędu. Po prostu wszystkie metody rozpoznawania są skuteczne tylko na pojedynczych stronach. Na wielu stronach program musi powtarzać operacje dla każdej kartki z osobna. Aby „ogarnąć” taki plik dokumentów, programy zaczynają od dzielenia wielostronicowych dokumentów, na przykład dwustronicowych tabel, na pojedyncze strony, następnie rozpoznają tekst strona po stronie. Dopiero na koniec znów łączą wyniki w wielostronicowy dokument, a to zajmuje czas i spore zasoby systemowe.
Sprawdź: Co jest największym wrogiem komputerów?
Kolejne problemy mogą sprawić czcionki. Warto pamiętać, że rozpoznawanie tekstu działa najlepiej na dobrze czytelnych czcionkach, takich jak Times lub Courier. Jeśli czcionki w dokumencie są małe lub wyjątkowo ozdobne, sprawią programowi do OCR sporo problemów. Im mniejsza i bardziej zawiła czcionka, tym więcej błędów użytkownik musi poprawiać ręcznie, a niekiedy poprawianie drobnych błędów i późniejsze sprawdzanie, czy wszystko jest w porządku trwa dłużej, niż ręczne przepisanie całej strony.
REKLAMA
REKLAMA
© Materiał chroniony prawem autorskim - wszelkie prawa zastrzeżone. Dalsze rozpowszechnianie artykułu za zgodą wydawcy INFOR PL S.A.