REKLAMA

REKLAMA

Kategorie
Zaloguj się

Zarejestruj się

Proszę podać poprawny adres e-mail Hasło musi zawierać min. 3 znaki i max. 12 znaków
* - pole obowiązkowe
Przypomnij hasło
Witaj
Usuń konto
Aktualizacja danych
  Informacja
Twoje dane będą wykorzystywane do certyfikatów.

Rozpoznawanie tekstu oszczędza czas pracowników

Łukasz Plewa

REKLAMA

REKLAMA

Przepisywanie tekstów jest nie tylko uciążliwe ale w sposób zatrważający kradnie pracownikom czas, który poświęcić mogliby na pożyteczniejsze zajęcia. Komputery są w tej kwestii o wiele szybsze – poznajmy oprogramowanie do rozpoznawania tekstu.

Programy do rozpoznawania tekstu upowszechniły się wraz ze skanerami. Dzisiaj firma, która nie korzysta z ich dobrodziejstwa zlecając przepisywanie pracownikowi marnuje w rzeczywistości jego potencjał i własne pieniądze. Sam skaner, bez programu pozwoli nam jedynie zeskanować stronę która będzie zapisana w formie obrazu. Aby taki plik edytować obraz należy przetworzyć na tekst. Optyczne rozpoznawanie znaków – bo tak nazywa się ten proces (OCR – Optical Character Recognition) dzieli się na kilka kroków, w których aplikacja po kolei tworzy w pełni czytelny zapis tekstowy.

REKLAMA

REKLAMA

Po wczytaniu strony (obrazu) następuje podział strony. Polega on na analizie „powierzchni” kartki dzięki czemu ustalone zostaje położenie tekstu, grafiki czy tabeli. Na samo koniec stworzona zostaje mapa znaków gdzie zaznaczone są pojedyncze słowa i zdania.

W procesie rozpoznawania znaków program ma za zadanie poprawnie rozpoznać każdą literę, cyfrę czy symbol. Jest to najważniejsza faza gdyż ewentualna pomyłka odbije się na rozpoznaniu całego tekstu. Oprogramowanie typu OCR ulepszane jest już od ponad 40 lat, a wypracowane metody tj. rozpoznawanie wzoru i cech eliminują większość błędów.

Rozpoznawanie cech polega w skrócie na sprawdzaniu pewnych założeń dotyczących każdego ze znaków. Cechy te są niezmienne nawet w gdy tekst pisany jest czcionką pogrubioną lub przechyloną. Za dobry przykład może służyć litera A, która składa się ukośnych linii spotykających się u wierzchołka i poziomej kreski w środku. Programy wykorzystują po kolei kilka metod, które następnie są ze sobą porównywane aby zmniejszyć do minimum ryzyko błędu.

REKLAMA

Rozpoznawanie wzorców to inaczej porównywanie znaków z bazą, która dysponuje program. Zazwyczaj znajdują się w niej różne kroje pisma, które dopasowywane są metodą zero jedynkową. Jest to bardzo czasochłonny proces gdyż każdy element wzorca musi się zgadzać – krój, wytłuszczenie i kursywa.

Dalszy ciąg materiału pod wideo

W następnym kroku program rozpoczyna budowę tekstu posługując się wbudowanymi słownikami. Tworzy on z poszczególnych znaków wyrazy i zdania. Łączą się tu dwie poprzednie fazy (analiza strony i rozpoznawanie tekstu) dzięki czemu tworzenie zdań jest znacznie szybsze.

Po zakończeniu pracy odtworzony tekst zostaje zapisany automatycznie w popularnych formatach jak txt, doc czy PDF.

Wymagania sprzętowe

Programy typu OCR dokonują wielu obliczeń co wiąże się z dość dużym obciążeniem komputera. Wszystko zależy od trudności tekstu, która rozpoznajemy na podstawie kilku czynników:

Ilość stron – duża ilość stron znacznie wydłuża pracę programów OCR, które rozkładają najpierw cały materiał na pojedyncze strony i dopiero potem go analizują

Czystość strony – jeśli strony są zabrudzone litera a mogła by zostać rozpoznana jako ą. Miało by to katastroficzne skutki dlatego programy te wyposażono w system rozpoznania i eliminowania zabrudzeń z cyfrowego obrazu.

Czcionki – Im bardziej skomplikowana czcionka tym gorzej dla OCR-a. Im większa i prostsza czcionka tym szybciej zakończy się praca programu, i tym mniej popełni on błędów.

Kierunek tekstu – nietypowy format lub kierunek tekstu wprowadzają w błąd oprogramowanie przez co sprawdzanie układu trwa dłużej. To samo tyczy się stron zeskanowanych odwrotnie lub krzywo.

Języki obce i specjalistyczne – mimo iż programy mają wbudowane słowniki gramatyczne, językowe i specjalistyczne to niektóre słowa mogą im sprawić problem. Gdy słowo zostanie rozpoznane, a nie będzie go w słowniku zostanie oznaczone jako wymagające sprawdzenia.

Tabele – OCR-y traktują tabele jak obraz, dlatego więcej czasu zajmuje im ich analiza i oddzielenie od siebie tekstu i linii. Później takie materiały są eksportowane do arkuszy kalkulacyjnych.

Pismo odręczne

Niestety algorytmy programów typu OCR nie są jeszcze tak rozbudowane aby odczytywać pismo odręczne. Jednym z powodów jest łączenie przez nas liter i znaków. W miarę zadowalające efekty można osiągnąć pisząc drukowanymi literami. 

Porady internetowe, newsy i ciekawostki - czytaj na internet.wieszjak.pl

Autopromocja

REKLAMA

Źródło: Własne
Czy ten artykuł był przydatny?
tak
nie
Dziękujemy za powiadomienie - zapraszamy do subskrybcji naszego newslettera
Jeśli nie znalazłeś odpowiedzi na swoje pytania w tym artykule, powiedz jak możemy to poprawić.
UWAGA: Ten formularz nie służy wysyłaniu zgłoszeń . Wykorzystamy go aby poprawić artykuł.
Jeśli masz dodatkowe pytania prosimy o kontakt

REKLAMA

Komentarze(0)

Pokaż:

Uwaga, Twój komentarz może pojawić się z opóźnieniem do 10 minut. Zanim dodasz komentarz -zapoznaj się z zasadami komentowania artykułów.
    QR Code
    Moja firma
    Zapisz się na newsletter
    Zobacz przykładowy newsletter
    Zapisz się
    Wpisz poprawny e-mail
    Rolnicy ruszyli do skupów. Czy da się jeszcze zarobić na zbożu?

    W obliczu obaw o dalszy spadek cen, rolnicy postanowili sprzedać zboża ze swoich magazynów. Już w styczniu, punkty skupu zakupiły 538,8 tys. ton zbóż, co stanowi wzrost o 10% w porównaniu z analogicznym okresem w roku 2023 i o 17% w stosunku do grudnia poprzedniego roku. 

    Dojście do niskiej inflacji wymaga kontraktu społecznego, który jest jak umowa widmo

    Niska inflacja to kontrakt społeczny. Taki kontrakt jest jak umowa widmo, ale osiągany jest głównie wysiłkiem banku centralnego, bo NBP jest odpowiedzialny za stabilność cen w gospodarce.

    Sektor MŚP chętniej sięga po kredyty, a banki zaostrzają kryteria ich przyznawania

    Popyt na kredyty długoterminowe ze strony małych przedsiębiorców jest najwyższy od lat. Jedocześnie banki przyznają, że zaostrzają kryteria kredytowe. Czy alternatywna forma finansowania, czyli faktoring, będzie przeżywał ożywienie?  

    Przedsiębiorcy mają obawy czy uda się wydać pieniądze z KPO. Polska ma na to o połowę mniej czasu niż inne kraje

    Pieniądze z Krajowego Planu Odbudowy – KPO dla Polski to doskonała wiadomość, ale trzeba się pospieszyć, by je efektywnie wydać, apelują przedsiębiorcy. Kraje, które dostały pieniądze europejskie bez opóźnień aktualnie są już w połowie drogi w ich wydatkowaniu. Polska będzie musiała wdrożyć wysokie tempo, by żadne dotacje nie przepadły.

     

    REKLAMA

    Wakacje składkowe dla małych przedsiębiorców. Nowa wersja projektu ustawy z rocznym limitem wydatków

    Ministerstwo Rozwoju i Technologii opublikowało nową wersję projektu ustawy o tzw. wakacjach składkowych. Obniżono w nim szacunek kosztu rozwiązania dla finansów publicznych w 10 lat do 20,4 mld zł z niemal 25 mld zł.

    Model pracy w firmie: work-life balance czy work-life integration? Pracować by żyć, czy żyć, by pracować?

    Zacierają się granice między życiem prywatnym i zawodowym. Jednak dla większości pracowników życie osobiste jest ważniejsze niż zawodowe. Pracodawcy powinni wsłuchiwać się w potrzeby i oczekiwania swoich pracowników i w zależności od tego wybierać model pracy w firmie.

    Jak handel wykorzystuje nowe technologie

    Technologia to nieodłączna część funkcjonowania nowoczesnej dystrybucji towarów. Pracownicy sektora sprzedaży nie wyobrażają sobie bez niej pracy. Tak wynika z raportu Slack przygotowanego na bazie ankiety wśród dyrektorów i menadżerów z sektora handlowego. 

    Komisja Europejska wydała wstępną pozytywną ocenę pierwszego wniosku z Krajowego Planu Odbudowy

    Mamy dobrą wiadomość: jest formalna zgoda KE ws. akceptacji pierwszego wniosku z Krajowego Planu Odbudowy, jak też warunku związanego z Kartą Praw Podstawowych UE - poinformowała w czwartek minister funduszy i polityki regionalnej Katarzyna Pełczyńska-Nałęcz.

    REKLAMA

    Ukrainie trzeba pomagać, ale import produktów rolnych do Unii Europejskiej nie może mieć takiej formy jak obecnie

    Po wybuchu wojny doszło do załamania wymiany handlowej Ukrainy. Obecnie głównym kierunkiem ukraińskiej sprzedaży zagranicznej jest Unia Europejska. Otwarcie UE na ukraiński import produktów rolnych nie może mieć takiej formy jak obecnie. Rolnicy polscy i z innych krajów unijnych nie wytrzymają konkurencji.

    Firma źle zarządzająca ryzykiem może pożegnać się z ubezpieczeniem?

    Jedynie 44 proc. firm w Polsce ma sformalizowaną politykę zarządzania ryzykiem. Podejście do zarządzania ryzykiem w biznesie wciąż wymaga jeszcze dużo pracy. Co firmy ubezpieczają najczęściej? 

    REKLAMA