REKLAMA

REKLAMA

Kategorie
Zaloguj się

Zarejestruj się

Proszę podać poprawny adres e-mail Hasło musi zawierać min. 3 znaki i max. 12 znaków
* - pole obowiązkowe
Przypomnij hasło
Witaj
Usuń konto
Aktualizacja danych
  Informacja
Twoje dane będą wykorzystywane do certyfikatów.

Rozpoznawanie tekstu oszczędza czas pracowników

Łukasz Plewa

REKLAMA

REKLAMA

Przepisywanie tekstów jest nie tylko uciążliwe ale w sposób zatrważający kradnie pracownikom czas, który poświęcić mogliby na pożyteczniejsze zajęcia. Komputery są w tej kwestii o wiele szybsze – poznajmy oprogramowanie do rozpoznawania tekstu.

Programy do rozpoznawania tekstu upowszechniły się wraz ze skanerami. Dzisiaj firma, która nie korzysta z ich dobrodziejstwa zlecając przepisywanie pracownikowi marnuje w rzeczywistości jego potencjał i własne pieniądze. Sam skaner, bez programu pozwoli nam jedynie zeskanować stronę która będzie zapisana w formie obrazu. Aby taki plik edytować obraz należy przetworzyć na tekst. Optyczne rozpoznawanie znaków – bo tak nazywa się ten proces (OCR – Optical Character Recognition) dzieli się na kilka kroków, w których aplikacja po kolei tworzy w pełni czytelny zapis tekstowy.

REKLAMA

REKLAMA

Po wczytaniu strony (obrazu) następuje podział strony. Polega on na analizie „powierzchni” kartki dzięki czemu ustalone zostaje położenie tekstu, grafiki czy tabeli. Na samo koniec stworzona zostaje mapa znaków gdzie zaznaczone są pojedyncze słowa i zdania.

W procesie rozpoznawania znaków program ma za zadanie poprawnie rozpoznać każdą literę, cyfrę czy symbol. Jest to najważniejsza faza gdyż ewentualna pomyłka odbije się na rozpoznaniu całego tekstu. Oprogramowanie typu OCR ulepszane jest już od ponad 40 lat, a wypracowane metody tj. rozpoznawanie wzoru i cech eliminują większość błędów.

Rozpoznawanie cech polega w skrócie na sprawdzaniu pewnych założeń dotyczących każdego ze znaków. Cechy te są niezmienne nawet w gdy tekst pisany jest czcionką pogrubioną lub przechyloną. Za dobry przykład może służyć litera A, która składa się ukośnych linii spotykających się u wierzchołka i poziomej kreski w środku. Programy wykorzystują po kolei kilka metod, które następnie są ze sobą porównywane aby zmniejszyć do minimum ryzyko błędu.

REKLAMA

Rozpoznawanie wzorców to inaczej porównywanie znaków z bazą, która dysponuje program. Zazwyczaj znajdują się w niej różne kroje pisma, które dopasowywane są metodą zero jedynkową. Jest to bardzo czasochłonny proces gdyż każdy element wzorca musi się zgadzać – krój, wytłuszczenie i kursywa.

Dalszy ciąg materiału pod wideo

W następnym kroku program rozpoczyna budowę tekstu posługując się wbudowanymi słownikami. Tworzy on z poszczególnych znaków wyrazy i zdania. Łączą się tu dwie poprzednie fazy (analiza strony i rozpoznawanie tekstu) dzięki czemu tworzenie zdań jest znacznie szybsze.

Po zakończeniu pracy odtworzony tekst zostaje zapisany automatycznie w popularnych formatach jak txt, doc czy PDF.

Wymagania sprzętowe

Programy typu OCR dokonują wielu obliczeń co wiąże się z dość dużym obciążeniem komputera. Wszystko zależy od trudności tekstu, która rozpoznajemy na podstawie kilku czynników:

Ilość stron – duża ilość stron znacznie wydłuża pracę programów OCR, które rozkładają najpierw cały materiał na pojedyncze strony i dopiero potem go analizują

Czystość strony – jeśli strony są zabrudzone litera a mogła by zostać rozpoznana jako ą. Miało by to katastroficzne skutki dlatego programy te wyposażono w system rozpoznania i eliminowania zabrudzeń z cyfrowego obrazu.

Czcionki – Im bardziej skomplikowana czcionka tym gorzej dla OCR-a. Im większa i prostsza czcionka tym szybciej zakończy się praca programu, i tym mniej popełni on błędów.

Kierunek tekstu – nietypowy format lub kierunek tekstu wprowadzają w błąd oprogramowanie przez co sprawdzanie układu trwa dłużej. To samo tyczy się stron zeskanowanych odwrotnie lub krzywo.

Języki obce i specjalistyczne – mimo iż programy mają wbudowane słowniki gramatyczne, językowe i specjalistyczne to niektóre słowa mogą im sprawić problem. Gdy słowo zostanie rozpoznane, a nie będzie go w słowniku zostanie oznaczone jako wymagające sprawdzenia.

Tabele – OCR-y traktują tabele jak obraz, dlatego więcej czasu zajmuje im ich analiza i oddzielenie od siebie tekstu i linii. Później takie materiały są eksportowane do arkuszy kalkulacyjnych.

Pismo odręczne

Niestety algorytmy programów typu OCR nie są jeszcze tak rozbudowane aby odczytywać pismo odręczne. Jednym z powodów jest łączenie przez nas liter i znaków. W miarę zadowalające efekty można osiągnąć pisząc drukowanymi literami. 

Porady internetowe, newsy i ciekawostki - czytaj na internet.wieszjak.pl

Źródło: Własne

Oceń jakość naszego artykułu

Dziękujemy za Twoją ocenę!

Twoja opinia jest dla nas bardzo ważna

Powiedz nam, jak możemy poprawić artykuł.
Zaznacz określenie, które dotyczy przeczytanej treści:
Autopromocja

REKLAMA

QR Code

REKLAMA

Moja firma
Zapisz się na newsletter
Zobacz przykładowy newsletter
Zapisz się
Wpisz poprawny e-mail
Make European BioTech Great Again - szanse dla biotechnologii w Europie Środkowo-Wschodniej

W obliczu zmian geopolitycznych w świecie Europa Środkowo-Wschodnia może stać się nowym centrum biotechnologicznych innowacji. Czy Polska i kraje regionu są gotowe na tę szansę? O tym będą dyskutować uczestnicy XXIII edycji CEBioForum, największego w regionie spotkania naukowców, ekspertów, przedsiębiorców i inwestorów zajmujących się biotechnologią.

Jak ustanowić zarząd sukcesyjny za życia przedsiębiorcy? Procedura krok po kroku

Najlepszym scenariuszem jest zaplanowanie sukcesji zawczasu, za życia właściciela firmy. Ustanowienie zarządu sukcesyjnego sprowadza się do formalnego powołania zarządcy sukcesyjnego i zgłoszenia tego faktu do CEIDG.

Obowiązek sprawozdawczości zrównoważonego rozwoju w Polsce: wyzwania i możliwości dla firm

Obowiązek sporządzania sprawozdawczości zrównoważonego rozwoju dotyczy dużych podmiotów oraz notowanych małych i średnich przedsiębiorstw. Firmy muszą działać w duchu zrównoważonego rozwoju. Jakie zmiany w pakiecie Omnibus mogą wejść w życie?

Nowa funkcja Google: AI Overviews. Czy zagrozi polskim firmom i wywoła spadki ruchu na stronach internetowych?

Po latach dominacji na rynku wyszukiwarek Google odczuwa coraz większą presję ze strony takich rozwiązań, jak ChatGPT czy Perplexity. Dzięki SI internauci zyskali nowe możliwości pozyskiwania informacji, lecz gigant z Mountain View nie odda pola bez walki. AI Overviews – funkcja, która właśnie trafiła do Polski – to jego kolejna próba utrzymania cyfrowego monopolu. Dla firm pozyskujących klientów dzięki widoczności w internecie, jest ona powodem do niepokoju. Czy AI zacznie przejmować ruch, który dotąd trafiał na ich strony? Ekspert uspokaja – na razie rewolucji nie będzie.

REKLAMA

Coraz więcej postępowań restrukturyzacyjnych. Ostatnia szansa przed upadłością

Branża handlowa nie ma się najlepiej. Ale przed falą upadłości ratuje ją restrukturyzacja. Przez dwa pierwsze miesiące 2025 r. w porównaniu do roku ubiegłego, odnotowano już 40% wzrost postępowań restrukturyzacyjnych w sektorze spożywczym i 50% wzrost upadłości w handlu odzieżą i obuwiem.

Ostatnie lata to legislacyjny rollercoaster. Przedsiębiorcy oczekują deregulacji, ale nie hurtowo

Ostatnie lata to legislacyjny rollercoaster. Przedsiębiorcy oczekują deregulacji i pozytywnie oceniają większość zmian zaprezentowanych przez Rafała Brzoskę. Deregulacja to tlen dla polskiej gospodarki, ale nie można jej przeprowadzić hurtowo.

Ekspansja zagraniczna w handlu detalicznym, a zmieniające się przepisy. Jak przygotować systemy IT, by uniknąć kosztownych błędów?

Według danych Polskiego Instytutu Ekonomicznego (Tygodnik Gospodarczy PIE nr 34/2024) co trzecia firma działająca w branży handlowej prowadzi swoją działalność poza granicami naszego kraju. Większość organizacji docenia możliwości, które dają międzynarodowe rynki. Potwierdzają to badania EY (Wyzwania polskich firm w ekspansji zagranicznej), zgodnie z którymi aż 86% polskich podmiotów planuje dalszą ekspansję zagraniczną. Przygotowanie do wejścia na nowe rynki obejmuje przede wszystkim kwestie związane ze szkoleniami (47% odpowiedzi), zakupem sprzętu (45%) oraz infrastrukturą IT (43%). W przypadku branży retail dużą rolę odgrywa integracja systemów fiskalnych z lokalnymi regulacjami prawnymi. O tym, jak firmy mogą rozwijać międzynarodowy handel detaliczny bez obaw oraz o kompatybilności rozwiązań informatycznych, opowiadają eksperci INEOGroup.

Leasing w podatkach i optymalizacja wykupu - praktyczne informacje

Leasing od lat jest jedną z najpopularniejszych form finansowania środków trwałych w biznesie. Przedsiębiorcy chętnie korzystają z tej opcji, ponieważ pozwala ona na rozłożenie kosztów w czasie, a także oferuje korzyści podatkowe. Warto jednak pamiętać, że zarówno leasing operacyjny, jak i finansowy podlegają różnym regulacjom podatkowym, które mogą mieć istotne znaczenie dla rozliczeń firmy. Dodatkowo, wykup przedmiotu leasingu niesie ze sobą określone skutki podatkowe, które warto dobrze zaplanować.

REKLAMA

Nie czekaj na cyberatak. Jakie kroki podjąć, aby być przygotowanym?

Czy w dzisiejszych czasach każda organizacja jest zagrożona cyberatakiem? Jak się chronić? Na co zwracać uwagę? Na pytania odpowiadają: Paweł Kulpa i Robert Ługowski - Cybersecurity Architect, Safesqr.

Jak założyć spółkę z o.o. przez S24?

Rejestracja spółki z o.o. przez system S24 w wielu przypadkach jest najlepszą metodą zakładania spółki, ze względu na ograniczenie kosztów, szybkość (np. nie ma konieczności umawiania spotkań z notariuszem) i możliwość działania zdalnego w wielu sytuacjach. Mimo tego, że funkcjonowanie systemu s24 wydaje się niezbyt skomplikowane, to jednak zakładanie spółki wymaga posiadania pewnej wiedzy prawnej.

REKLAMA