Społeczna korekta post-OCR w bibliotekach cyfrowych

Lewandowski, Rafał

Społeczna korekta post-OCR w bibliotekach cyfrowych

dc.contributor.author	Lewandowski, Rafał
dc.date.accessioned	2013-02-07T12:49:19Z
dc.date.available	2013-02-07T12:49:19Z
dc.date.issued	2011
dc.description.abstract	Biblioteki coraz częściej dokonują konwersji swoich zbiorów do postaci cyfrowej. Otrzymywane w procesie skanowania obrazy rastrowe są przechowywane na serwerze, a ich wyszukiwanie odbywa się dzięki wprowadzanym do systemu metadanym. Aby umożliwić przeszukiwanie pełnotekstowe niezbędne jest wykorzystanie technologii OCR (ang. Optical Character Recognition). Niestety, automatyczne rozpoznanie tekstów wielu publikacji jest bardzo utrudnione. Wpływa na to kilka czynników: niska jakość materiału wejściowego spowodowana nieprecyzyjnym drukiem (zamazane znaki, duplikowane litery, niewielki rozmiar czcionki) czy papier o niskiej gramaturze, co powoduje efekt przebijania strony odwrotnej podczas skanowania. Złe warunki przechowywania (wilgotność) powodują marszczenie papieru, falowanie jego powierzchni, co z kolei sprawia, że tekst nie jest skanowany w linii prostej. Jednym z podstawowych sposobów wspomagających proces rozpoznania tekstu jest korekta słownikowa (często w czasie rzeczywistym). Biblioteki coraz częściej korzystają ze społecznej, zbiorowej korekty danych post-OCR (collaborative OCR text correction). Cechuje się ona m.in. wysoką trafnością oraz niskim nakładem kosztów.	pl_PL
dc.description.abstract	Increasing numbers of libraries are converting their collections to digital form. The digital images are obtained through a process of scanning, and are searched based on metadata which is entered into the system. To enable full-text searching, it is necessary to make use of Optical Character Recognition (OCR) technology. Unfortunately, automatic recognition of text in historical publications is very difficult. This is due to several factors, including low quality of the input due to imprecise printing (smudged characters, duplicated letters, small font size), and the thinness of the paper, which causes the reverse side to show through during scanning. Poor storage conditions (humidity) cause the paper to wrinkle. Improper storage also means that the text is not scanned in a straight line. One of the basic methods used to support the text recognition process is dictionary-based correction (often in real time). More and more often, electronic libraries are making use of public collaborative OCR text correction. This offers a high level of accuracy at low cost.	pl_PL
dc.identifier.citation	Język. Komunikacja. Informacja, 2010/2011, tom 5, s.123-134	pl_PL
dc.identifier.issn	1896-9585
dc.identifier.uri	http://hdl.handle.net/10593/4357
dc.language.iso	pl	pl_PL
dc.publisher	SORUS S.C. Wydawnictwo i Drukarnia Cyfrowa	pl_PL
dc.subject	społeczna korekta post-OCR	pl_PL
dc.subject	public collaborative OCR text correction	pl_PL
dc.subject	Optical Character Recognition (OCR)	pl_PL
dc.subject	technologia OCR	pl_PL
dc.subject	biblioteki cyfrowe	pl_PL
dc.title	Społeczna korekta post-OCR w bibliotekach cyfrowych	pl_PL
dc.type	article

Files

Original bundle

Now showing 1 - 1 of 1

Name:: 11-Lewandowski.pdf
Size:: 3.81 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.49 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Język. Komunikacja. Informacja, 2010/2011, tom 5