| IFK | IRB | INFORLEX | GAZETA PRAWNA | INFORORGANIZER | APLIKACJA MOBILNA | PRACA W INFOR | SKLEP
reklama
Jesteś tutaj: STRONA GŁÓWNA > Moja firma > Biznes > Firma > e-Firma > Sprzęt biurowy i sieci > Jak dokładnie działa rozpoznawanie znaków?

Jak dokładnie działa rozpoznawanie znaków?

OCR, czyli optyczne rozpoznawanie tekstu sprawdza się szczególnie w firmach, w których wymagane jest przenoszenie dokumentów papierowych do komputera. Niewiele osób jednak wie, jak działają programy OCR. Warto wiedzieć, że programy te stosują wiele rozmaitych technik pozwalających na rozpoznanie poszczególnych znaków.

Jedną z technik wykorzystywanych przez programy OCR jest technika rozpoznawania cech. Istnieje dokładnie dziesięć różnych metod, jednak najważniejsze i najczęściej stosowane techniki to rozpoznawanie rastra, rozpoznawanie cech i klasyfikacja struktur. Program do rozpoznawania tekstu wie, że każdy znak ma określone cechy.

Dla przykładu, typowymi cechami litery A są dwie ukośne linie spotykające się u wierzchołka i kreska w środku. Cechy te są niezmienne bez względu na wielkość czcionki albo sposób wydrukowania tekstu, na przykład kursywę lub wytłuszczenie. My również znamy te zasady od dziecka i doskonale wiemy, że nie ulegną one zmianie.

Zobacz również: Click 2 SMS – co to takiego i czy to działa?

Podczas rozpoznawania cech, program stosuje kilka metod identyfikacji po kolei. Ciekawostka jest fakt, że dokładne zasady ich działania są najpilniej strzeżonymi tajemnicami producentów oprogramowania stosowanego do rozpoznawania tekstu. Najogólniej proces ten wygląda następująco: program porównuje i waży wyniki wszystkich użytych w celu rozpoznania znaku metod. Do końcowego wyniku, czyli gotowego tekstu trafia ten znak, dla którego ustalono najwyższe prawdopodobieństwo skutecznego rozpoznania.

Kolejną techniką jest rozpoznawanie wzorców. Metoda ta polega na porównywaniu każdego jednego znaku z zadanej strony z biblioteką znaków programu. Programy wykorzystują do tego duże bazy danych z różnymi krojami pisma, czyli czcionkami, wielkością tekstu, ze znakami zniekształconymi etc. Jeśli znaleziony znak zgadza się ze znakiem z bazy danych, program uznaje go za rozpoznany.

Na pierwszy rzut oka brzmi to bardzo prosto, jednak w praktyce czynności te są bardzo czasochłonne i nie gwarantują stuprocentowej skuteczności, bo czcionka na rozpoznawanej stronie musi absolutnie zgadzać się z wzorcem w bazie danych, włącznie ze wszystkimi elementami formatowania, takimi jak wytłuszczenie lub kursywa. Bardzo często programy mylą się i końcowy wynik nie zgadza się w 100 procentach z pierwowzorem.

Zobacz również: Reklama w mobilnym Internecie – jak przewidzieć reakcję odbiorcy?

Ostatnim aspektem podczas optycznego rozpoznawania tekstu jest rozpoznawanie kolorów. Można wprawdzie skanować strony z kolorowymi zdjęciami lub grafikami, ale programy do OCR wykorzystują tylko odcienie szarości. Czemu? Otóż z praktycznego punktu widzenia, kolory nie odgrywają żadnej roli podczas rozpoznawania tekstu, a pliki z materiałami do analizy zajmują mniej miejsca.

reklama

Narzędzia przedsiębiorcy

POLECANE

Dotacje dla firm

reklama

Ostatnio na forum

Fundusze unijne

Pomysł na biznes

Eksperci portalu infor.pl

Kancelaria Radców Prawnych R. Ptak i Wspólnicy sp.k.

Obsługa prawna przedsiębiorców

Zostań ekspertem portalu Infor.pl »