Rozpoznawanie tekstu oszczędza czas pracowników
REKLAMA
REKLAMA
Programy do rozpoznawania tekstu upowszechniły się wraz ze skanerami. Dzisiaj firma, która nie korzysta z ich dobrodziejstwa zlecając przepisywanie pracownikowi marnuje w rzeczywistości jego potencjał i własne pieniądze. Sam skaner, bez programu pozwoli nam jedynie zeskanować stronę która będzie zapisana w formie obrazu. Aby taki plik edytować obraz należy przetworzyć na tekst. Optyczne rozpoznawanie znaków – bo tak nazywa się ten proces (OCR – Optical Character Recognition) dzieli się na kilka kroków, w których aplikacja po kolei tworzy w pełni czytelny zapis tekstowy.
REKLAMA
REKLAMA
Po wczytaniu strony (obrazu) następuje podział strony. Polega on na analizie „powierzchni” kartki dzięki czemu ustalone zostaje położenie tekstu, grafiki czy tabeli. Na samo koniec stworzona zostaje mapa znaków gdzie zaznaczone są pojedyncze słowa i zdania.
W procesie rozpoznawania znaków program ma za zadanie poprawnie rozpoznać każdą literę, cyfrę czy symbol. Jest to najważniejsza faza gdyż ewentualna pomyłka odbije się na rozpoznaniu całego tekstu. Oprogramowanie typu OCR ulepszane jest już od ponad 40 lat, a wypracowane metody tj. rozpoznawanie wzoru i cech eliminują większość błędów.
Rozpoznawanie cech polega w skrócie na sprawdzaniu pewnych założeń dotyczących każdego ze znaków. Cechy te są niezmienne nawet w gdy tekst pisany jest czcionką pogrubioną lub przechyloną. Za dobry przykład może służyć litera A, która składa się ukośnych linii spotykających się u wierzchołka i poziomej kreski w środku. Programy wykorzystują po kolei kilka metod, które następnie są ze sobą porównywane aby zmniejszyć do minimum ryzyko błędu.
REKLAMA
Rozpoznawanie wzorców to inaczej porównywanie znaków z bazą, która dysponuje program. Zazwyczaj znajdują się w niej różne kroje pisma, które dopasowywane są metodą zero jedynkową. Jest to bardzo czasochłonny proces gdyż każdy element wzorca musi się zgadzać – krój, wytłuszczenie i kursywa.
W następnym kroku program rozpoczyna budowę tekstu posługując się wbudowanymi słownikami. Tworzy on z poszczególnych znaków wyrazy i zdania. Łączą się tu dwie poprzednie fazy (analiza strony i rozpoznawanie tekstu) dzięki czemu tworzenie zdań jest znacznie szybsze.
Po zakończeniu pracy odtworzony tekst zostaje zapisany automatycznie w popularnych formatach jak txt, doc czy PDF.
Wymagania sprzętowe
Programy typu OCR dokonują wielu obliczeń co wiąże się z dość dużym obciążeniem komputera. Wszystko zależy od trudności tekstu, która rozpoznajemy na podstawie kilku czynników:
Ilość stron – duża ilość stron znacznie wydłuża pracę programów OCR, które rozkładają najpierw cały materiał na pojedyncze strony i dopiero potem go analizują
Czystość strony – jeśli strony są zabrudzone litera a mogła by zostać rozpoznana jako ą. Miało by to katastroficzne skutki dlatego programy te wyposażono w system rozpoznania i eliminowania zabrudzeń z cyfrowego obrazu.
Czcionki – Im bardziej skomplikowana czcionka tym gorzej dla OCR-a. Im większa i prostsza czcionka tym szybciej zakończy się praca programu, i tym mniej popełni on błędów.
Kierunek tekstu – nietypowy format lub kierunek tekstu wprowadzają w błąd oprogramowanie przez co sprawdzanie układu trwa dłużej. To samo tyczy się stron zeskanowanych odwrotnie lub krzywo.
Języki obce i specjalistyczne – mimo iż programy mają wbudowane słowniki gramatyczne, językowe i specjalistyczne to niektóre słowa mogą im sprawić problem. Gdy słowo zostanie rozpoznane, a nie będzie go w słowniku zostanie oznaczone jako wymagające sprawdzenia.
Tabele – OCR-y traktują tabele jak obraz, dlatego więcej czasu zajmuje im ich analiza i oddzielenie od siebie tekstu i linii. Później takie materiały są eksportowane do arkuszy kalkulacyjnych.
Pismo odręczne
Niestety algorytmy programów typu OCR nie są jeszcze tak rozbudowane aby odczytywać pismo odręczne. Jednym z powodów jest łączenie przez nas liter i znaków. W miarę zadowalające efekty można osiągnąć pisząc drukowanymi literami.
Porady internetowe, newsy i ciekawostki - czytaj na internet.wieszjak.pl
REKLAMA
REKLAMA