Wykorzystanie zasobów ustrukturyzowanych w neuronowych modelach języka

Loading...
Thumbnail Image

Date

2024

Editor

Journal Title

Journal ISSN

Volume Title

Publisher

Title alternative

Utilizing Structured Resources in Neural Language Models

Abstract

Większość badań w dziedzinie przetwarzania języka naturalnego koncentruje się na przetwarzaniu tekstu. Choć ten paradygmat jest bardzo skuteczny w wielu zastosowaniach, takich jak tłumaczenie maszynowe, automatyczne podsumowywanie i systemy dialogowe, nie potrafi w pełni wykorzystać bogactwa wielu dokumentów tworzonych przez i dla ludzi. Dokumenty przekazują znaczenie nie tylko przez warstwę tekstową, ale także poprzez swoją strukturę i cechy wizualne. Kluczowym wyzwaniem podejmowanym w tej pracy jest proponowanie rozwiązań rozszerzających najnowsze modele języka o wykorzystanie informacji strukturalnych celem poprawy jakości przetwarzania dokumentów. Niniejsza rozprawa składa się z pięciu prac naukowych w domenie rozumienia dokumentów i jest podzielona na dwie główne sekcje. Pierwsza sekcja dotyka problemu oceny modeli rozumienia dokumentów. Druga sekcja tej pracy podejmuje różne wyzwania w domenie rozumienia dokumentów, proponując innowacyjne rozwiązania mające na celu poprawę jakości modeli. Podsumowując, ta praca przyczynia się do rozwoju modeli rozumienia dokumentów, umożliwiając lepsze przetwarzanie i analizę dokumentów o bogatej strukturze. The majority of research in the field of Natural Language Processing is focused on processing plain text. While this paradigm is highly effective for numerous use cases, such as machine translation, summarization, and chatbots, it fails to fully harness the richness of many texts created by and for humans. Documents, on the other hand, convey meaning not only through their textual content but also through their structure and visual features. A key challenge tackled by this thesis is to develop solutions that combine recent advancements in language modeling with structural information to improve the processing and comprehension of documents. This thesis comprises five scientific papers in the domain of document understanding, divided into two main sections. The first section focuses on evaluating document understanding models. The second section of this thesis tackles various challenges in the document understanding domain, proposing innovative solutions to enhance model performance. Overall, this thesis contributes to the development of more accurate and useful document understanding models, enabling improved processing and comprehension of rich, structured documents.

Description

Wydział Matematyki i Informatyki

Sponsor

Keywords

uczenie maszynowe, przetwarzanie języka naturalnego, rozumienie dokumentów, machine learning, natural language processing, document understanding

Citation

Seria

ISBN

ISSN

DOI

Title Alternative

Rights Creative Commons

Creative Commons License

Uniwersytet im. Adama Mickiewicza w Poznaniu
Biblioteka Uniwersytetu im. Adama Mickiewicza w Poznaniu
Ministerstwo Nauki i Szkolnictwa Wyższego