Jak działa rozpoznawanie tekstu w komputerze?
REKLAMA
REKLAMA
Cały proces składa się z pięciu kroków, a pierwszym z nich jest początkowe wczytanie strony. W tej fazie strona, jako plik graficzny musi trafić do komputera, na przykład, jako skan. Jest to pierwsza, podstawowa faza zamiany grafiki na tekst. W następnym kroku następuje podział strony.
REKLAMA
Podział strony polega na rozpoznaniu teksty przez program i podzielenie go na poszczególne elementy. Dzięki tak zwanej analizie layoutu, czyli układu strony, program do OCR ustala, gdzie na stronie znajduje się tekst, a gdzie inne elementy, na przykład grafiki i zdjęcia. Ponadto program automatycznie dzieli tekst na akapity, potem na zdania, słowa i znaki. Na koniec analizy layoutu program tworzy z dokumentu zbiór pojedynczych znaków i zapamiętuje, gdzie znajdują się pojedyncze słowa i zdania. Tego typu zależności logiczne zostaną później wykorzystane podczas rozpoznawania. W kolejnym kroku system przeprowadza rozpoznawanie znaków.
Zobacz również: Reklama w mobilnym Internecie – jak przewidzieć reakcję odbiorcy?
REKLAMA
Rozpoznawanie znaków jest najważniejszą fazą rozpoznawania tekstu. W tym procesie program musi poradzić sobie z wieloma problemami i wątpliwościami, na przykład rozpoznanie w dokumencie, czy znak to litera B, a może cyfra 8. Bywa, że program myli się w tym miejscu i wynik całego procesu nie jest taki, jakiego się spodziewaliśmy.
Aby rozpoznać tekst możliwie bezbłędnie, programy wykorzystują kombinacje różnych metod, które z grubsza można podzielić na dwie kategorie: rozpoznawanie wzorów (pattern matching) i rozpoznawanie cech (feature matching). W następnej części poradnika zgłębimy te definicje. Tym czasem przejdźmy do kolejnej fazy, czyli budowania tekstu.
Po skończeniu procedury rozpoznawania znaków program znów zaczyna zajmować się dokumentem jako całością. Za pomocą wbudowanego słownika program z poszczególnych znaków tworzy słowa, ze słów zdania, potem akapity, aż do odtworzenia kompletnego tekstu, na kształt oryginału w formie papierowej.
Najważniejszą sztuczką jest wykorzystanie informacji uzyskanych podczas analizy layoutu, którą opisujemy wyżej w drugim kroku. Dzięki tym informacjom możliwe jest szybsze zbudowanie tekstu. Programy uwzględniają również reguły gramatyczne, aby w efekcie końcowym otrzymać poprawne zdania.
Sprawdź też: Nowy wymiar zakupów – Facebook Deals wkracza do Europy
Oczywiście ostatnim krokiem jest zapisanie rozpoznanej strony, jako plik. Najczęściej jest to plik tekstowy .txt lub plik, który uwzględnia format dokumentu źródłowego, na przykład PDF lub plik Word’a.
REKLAMA
REKLAMA
© Materiał chroniony prawem autorskim - wszelkie prawa zastrzeżone. Dalsze rozpowszechnianie artykułu za zgodą wydawcy INFOR PL S.A.