Nowe metody i zbiory danych do inteligentnego przetwarzania dokumentów

dc.contributor.advisorGraliński, Filip. Promotor
dc.contributor.authorJurkiewicz, Dawid
dc.date.accessioned2024-03-13T13:25:37Z
dc.date.available2024-03-13T13:25:37Z
dc.date.issued2024
dc.descriptionWydział Matematyki i Informatyki
dc.description.abstractRozprawa podejmuje dwa kluczowe obszary w ramach dziedziny inteligentnego przetwarzania dokumentów (ang. Intelligent Document Processing): identyfikację relewantnych fragmentów tekstu (ang. Span Identification) i problematykę rozumienia dokumentów (ang. Document Understanding). Duży nacisk położony jest na zmierzenie się z wyzwaniami związanymi z małą ilością dostępnych danych. Aby rozwiązać ten problem, zaproponowano zbiór danych dla identyfikacji relewantnych fragmentów tekstu na podstawie kilku przykładów oraz unikatową metodę do wyszukiwania podsekwencji na podstawie kilku przykładów. Oprócz rozwiązań bazujących na kilku przykładach, przedstawiono metody do identyfikacji i klasyfikacji fragmentów tekstu zawierających propagandę. Ponadto wprowadzono multimodalny model oparty na architekturze Transformer dla problematyki rozumienia dokumentów. Model rozumie semantykę tekstu, cechy wizualne i strukturę dokumentu oraz potrafi odpowiadać na różne sformułowania w języku naturalnym dotyczące dokumentu. Dodatkowo zaproponowano pierwszy zestaw zbiorów danych pozwalający społeczności na dokładną obserwację postępów w dziedzinie rozumienia dokumentów. Na koniec zaprezentowano wymagający konkurs dla problematyki rozumienia dokumentów zawierający nowatorskie pary typów pytań i odpowiedzi dla wielodomenowych, wielobranżowych i wielostronicowych dokumentów. This thesis aims to contribute innovative solutions and datasets to the Intelligent Document Processing (IDP) domain. The focus is set on two key areas within IDP: Span Identification (SI) and Document Understanding (DU). Significant emphasis is placed on addressing the challenges posed by low-data scenarios, which are prevalent in various business use cases. A few-shot SI dataset and a unique approach for sub-sequence matching with few examples are proposed to address this. Besides the few-shot setting, methods for identifying and classifying propaganda spans are presented. Furthermore, a multi-modal end-to-end Transformer-based model for Document Understanding is introduced. The model efficiently comprehends layout information, textual semantics, and visual cues present in the document and can answer various document-related questions posed in the natural language. Additionally, the first DU benchmark is proposed, allowing the community to measure the DU field's state accurately. Lastly, a challenging DU competition is showcased. The task features novel question and answer type pairs over multi-domain, multi-industry, and multi-page documents, encouraging the development of solutions with strong generalization capabilities in low-data regimes.
dc.identifier.urihttps://hdl.handle.net/10593/27672
dc.language.isoen
dc.subjectprzetwarzanie języka naturalnego
dc.subjectuczenie maszynowe
dc.subjectidentyfikacja relewantych fragmentów tekstu
dc.subjectrozumienie dokumentów
dc.subjectekstrakcja informacji
dc.subjectnatural language processing
dc.subjectmachine learning
dc.subjectspan identification
dc.subjectdocument understanding
dc.subjectinformation extraction
dc.titleNowe metody i zbiory danych do inteligentnego przetwarzania dokumentów
dc.title.alternativeNovel Methods and Datasets for Intelligent Document Processing
dc.typeinfo:eu-repo/semantics/doctoralThesis

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
PhD_Thesis_Dawid_Jurkiewicz.pdf
Size:
19.79 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.56 KB
Format:
Item-specific license agreed upon to submission
Description:
Uniwersytet im. Adama Mickiewicza w Poznaniu
Biblioteka Uniwersytetu im. Adama Mickiewicza w Poznaniu
Ministerstwo Nauki i Szkolnictwa Wyższego