REKLAMA

REKLAMA

Kategorie
Zaloguj się

Zarejestruj się

Proszę podać poprawny adres e-mail Hasło musi zawierać min. 3 znaki i max. 12 znaków
* - pole obowiązkowe
Przypomnij hasło
Witaj
Usuń konto
Aktualizacja danych
  Informacja
Twoje dane będą wykorzystywane do certyfikatów.
Porada Infor.pl

Jak działa rozpoznawanie tekstu w komputerze?

Kamil Rogala
Rozpoznawanie znaków jest najważniejszą fazą rozpoznawania tekstu.
Rozpoznawanie znaków jest najważniejszą fazą rozpoznawania tekstu.

REKLAMA

REKLAMA

Wiemy już, jak uciążliwe jest ręczne przepisywanie tekstów do komputera. Wiemy również, że istnieje idealne rozwiązanie, które wyręczy nas z tej uciążliwej pracy. Rozwiązanie to nazywa się OCR. Poznajmy teraz tajniki działania optycznego rozpoznawania tekstu, czyli zmiany grafiki na tekst.

Cały proces składa się z pięciu kroków, a pierwszym z nich jest początkowe wczytanie strony. W tej fazie strona, jako plik graficzny musi trafić do komputera, na przykład, jako skan. Jest to pierwsza, podstawowa faza zamiany grafiki na tekst. W następnym kroku następuje podział strony.

REKLAMA

Podział strony polega na rozpoznaniu teksty przez program i podzielenie go na poszczególne elementy. Dzięki tak zwanej analizie layoutu, czyli układu strony, program do OCR ustala, gdzie na stronie znajduje się tekst, a gdzie inne elementy, na przykład grafiki i zdjęcia. Ponadto program automatycznie dzieli tekst na akapity, potem na zdania, słowa i znaki. Na koniec analizy layoutu program tworzy z dokumentu zbiór pojedynczych znaków i zapamiętuje, gdzie znajdują się pojedyncze słowa i zdania. Tego typu zależności logiczne zostaną później wykorzystane podczas rozpoznawania. W kolejnym kroku system przeprowadza rozpoznawanie znaków.

Zobacz również: Reklama w mobilnym Internecie – jak przewidzieć reakcję odbiorcy?

REKLAMA

Rozpoznawanie znaków jest najważniejszą fazą rozpoznawania tekstu. W tym procesie program musi poradzić sobie z wieloma problemami i wątpliwościami, na przykład rozpoznanie w dokumencie, czy znak to litera B, a może cyfra 8. Bywa, że program myli się w tym miejscu i wynik całego procesu nie jest taki, jakiego się spodziewaliśmy.

Aby rozpoznać tekst możliwie bezbłędnie, programy wykorzystują kombinacje różnych metod, które z grubsza można podzielić na dwie kategorie: rozpoznawanie wzorów (pattern matching) i rozpoznawanie cech (feature matching). W następnej części poradnika zgłębimy te definicje. Tym czasem przejdźmy do kolejnej fazy, czyli budowania tekstu.

Dalszy ciąg materiału pod wideo

Po skończeniu procedury rozpoznawania znaków program znów zaczyna zajmować się dokumentem jako całością. Za pomocą wbudowanego słownika program z poszczególnych znaków tworzy słowa, ze słów zdania, potem akapity, aż do odtworzenia kompletnego tekstu, na kształt oryginału w formie papierowej.

Najważniejszą sztuczką jest wykorzystanie informacji uzyskanych podczas analizy layoutu, którą opisujemy wyżej w drugim kroku. Dzięki tym informacjom możliwe jest szybsze zbudowanie tekstu. Programy uwzględniają również reguły gramatyczne, aby w efekcie końcowym otrzymać poprawne zdania.

 Sprawdź też: Nowy wymiar zakupów – Facebook Deals wkracza do Europy

Oczywiście ostatnim krokiem jest zapisanie rozpoznanej strony, jako plik. Najczęściej jest to plik tekstowy .txt lub plik, który uwzględnia format dokumentu źródłowego, na przykład PDF lub plik Word’a.

Autopromocja

REKLAMA

Źródło: INFOR

Oceń jakość naszego artykułu

Dziękujemy za Twoją ocenę!

Twoja opinia jest dla nas bardzo ważna

Powiedz nam, jak możemy poprawić artykuł.
Zaznacz określenie, które dotyczy przeczytanej treści:

REKLAMA

Komentarze(0)

Pokaż:

Uwaga, Twój komentarz może pojawić się z opóźnieniem do 10 minut. Zanim dodasz komentarz -zapoznaj się z zasadami komentowania artykułów.
    QR Code

    © Materiał chroniony prawem autorskim - wszelkie prawa zastrzeżone. Dalsze rozpowszechnianie artykułu za zgodą wydawcy INFOR PL S.A.

    Moja firma
    Zapisz się na newsletter
    Zobacz przykładowy newsletter
    Zapisz się
    Wpisz poprawny e-mail
    Koszty zatrudnienia to główne wyzwanie dla firm w 2024 roku. Jak więc pozyskać specjalistów i jednocześnie zadbać o cash flow?

    W pierwszym półroczu 2024 roku wiele firm planuje rozbudowanie swoich zespołów – potwierdzają to niezależne badania ManpowerGroup czy Konfederacji Lewiatan. Jednocześnie pracodawcy mówią wprost - rosnące koszty zatrudnienia to główne wyzwanie w 2024 roku. Jak więc pozyskać specjalistów i jednocześnie zadbać o cash flow?

    Nauka języka obcego poprawi zdolność koncentracji. Ale nie tylko!

    Ostatnia dekada przyniosła obniżenie średniego czasu skupienia u człowieka aż o 28 sekund. Zdolność do koncentracji spada i to wina głównie social mediów. Czy da się to odwrócić? 

    Nowe przepisy: Po świętach rząd zajmie się cenami energii. Będzie bon energetyczny

    Minister klimatu i środowiska Paulina Hennig-Kloska zapowiedziała, że po świętach pakiet ustaw dotyczących cen energii trafi pod obrady rządu. Dodała też, że proces legislacyjny musi zakończyć się w pierwszej połowie maja.

    Wielkanoc 2024. Polacy szykują się na święta przed telewizorem?

    Jaka będzie tegoroczna Wielkanoc? Z badania online przeprowadzonego przez firmę Komputronik wynika, że leniwa. Polacy są zmęczeni i marzą o odpoczynku. 

    REKLAMA

    Biznes kontra uczelnie – rodzaj współpracy, korzyści

    Czy doktorat dla osób ze świata biznesu to synonim synergii? Wielu przedsiębiorców może zadawać sobie to pytanie podczas rozważań nad podjęciem studiów III stopnia. Na ile świat biznesu przenika się ze światem naukowym i gdzie należy szukać wzajemnych korzyści?

    Jak cyberprzestępcy wykorzystują sztuczną inteligencję?

    Hakerzy polubili sztuczną inteligencję. Od uruchomienia ChataGPT liczba złośliwych wiadomości pishingowych wzrosła o 1265%! Warto wiedzieć, jak cyberprzestępcy wykorzystują rozwiązania oparte na AI w praktyce.

    By utrzymać klientów tradycyjne sklepy muszą stosować jeszcze nowocześniejsze techniki marketingowe niż e-commerce

    Konsumenci wciąż wolą kupować w sklepach stacjonarnych produkty spożywcze, kosmetyki czy chemię gospodarczą, bo chcą je mieć od razu, bez czekania na kuriera. Jednocześnie jednak oczekują, że tradycyjne markety zapewnią im taki sam komfort kupowania jak sklepy internetowe.

    Transakcje bezgotówkowe w Polsce rozwijają się bardzo szybko. Gotówka jest wykorzystywana tylko do 35 proc. transakcji

    W Polsce około 2/3 transakcji jest dokonywanych płatnościami cyfrowymi. Pod tym względem nasz kraj jest w światowej czołówce - gotówka jest wykorzystywana tylko do ok. 35 proc. transakcji.

    REKLAMA

    Czekoladowa inflacja (chocoflation) przed Wielkanocą? Trzeci rok z rzędu produkcja kakao jest mniejsza niż popyt

    Ceny kakao gwałtownie rosną, ponieważ 2024 r. to trzeci z rzędu rok, gdy podaż nie jest w stanie zaspokoić popytu. Z analiz Allianz Trade wynika, że cenę za to będą płacić konsumenci.

    Kończy się najostrzejsza zima od 50 lat. Prawie 5 mln zwierząt hodowlanych zginęło z głodu w Mongolii

    Dobiegająca końca zima w Mongolii, najostrzejsza od pół wieku, doprowadziła do śmierci niemal 5 mln kóz, owiec i koni, które nie są w stanie dotrzeć do pożywienia. To duży cios w gospodarkę kraju zamieszkanego przez ok. 3,3 mln ludzi, z których ok. 300 tys. utrzymuje się z hodowli zwierząt - podkreśliło Radio Swoboda.

    REKLAMA