Rozpoznawanie jednostek nazwanych i ekstrakcja informacji z dokumentów różnego typu
Loading...
Date
2025
Authors
Advisor
Editor
Journal Title
Journal ISSN
Volume Title
Publisher
Title alternative
Named entity recognition from various documents
Abstract
Rozprawa doktorska prezentuje nowatorskie wykorzystanie metod rozpoznawania jednostek nazwanych i ekstrakcji informacji do przetwarzania dokumentów różnego typu. Praca składa się z czterech artykułów naukowych opublikowanych na konferencjach międzynarodowych. Rozdział 1 opisuje problem badawczy, motywację i uzyskane efekty oraz strukturę i zakres rozprawy. Zawiera także przegląd i podsumowanie załączonych artykułów. Rozdziały 2 i 3 przedstawiają prace badawcze związane z wykorzystaniem metod rozpoznawania jednostek nazwanych, które posłużyły jako część rozwiązania problemów zdefiniowanych w konkursach organizowanych w ramach międzynarodowych konferencji. Rozdział 2 zawiera opis systemu tłumaczenia powstałego w ramach WMT 2022. Rozdział 3 opisuje nowe modele lematyzacji jednostek nazwanych zastosowane w rozwiązaniu konkursu z Slavic NLP 2023. Rozdziały 4 i 5 dotyczą artykułów prezentujących modele sieci neuronowych powstałe w ramach prac wdrożeniowych. Rozdział 4 opisuje model TILT związany z pracą nad ekstrakcją informacji z dokumentów o dwuwymiarowej strukturze. W rozdziale 5 przedstawiono model STable do ekstrakcji danych tabelarycznych. Na końcu pracy znajdują się załączniki, w których zawarte są certyfikaty otrzymane od organizatorów konkursów, a także pierwsze strony uzyskanych patentów. Jako ostatnie zamieszczone zostały deklaracje o wkładzie współautorów.
The thesis presents a novel use of named entity recognition and information extraction methods for processing documents of various types. The thesis consists of four scientific articles published at international conferences. Chapter 1 describes the research problem, motivation and results obtained, as well as the structure and scope of the thesis. It also includes an overview and summary of the attached articles. Chapters 2 and 3 present research work related to the use of named entity recognition methods, which served as part of the solution to problems defined in competitions held at international conferences. Chapter 2 describes the translation system developed as part of WMT 2022. Chapter 3 describes novel models for lemmatization of named entities used in solving the competition with Slavic NLP 2023. Chapters 4 and 5 are about articles presenting neural network models created as part of the industrial work. Chapter 4 describes the TILT model related to the work on extracting information from two-dimensional documents. Chapter 5 presents the STable model for extracting tabular data. At the end of the work are appendices that include certificates received from competition organizers, as well as the first pages of patents obtained. Lastly, declarations of the contributions of the co-authors are included.
Description
Wydział Matematyki i Informatyki
Sponsor
Keywords
rozpoznawanie jednostek nazwanych, ekstrakcja informacji, sieci neuronowe, rozumienie dokumentów, named entity recognition, information extraction, neural networks, document understanding