Wykorzystanie zasobów ustrukturyzowanych w neuronowych modelach języka

Turski, Michał

Wykorzystanie zasobów ustrukturyzowanych w neuronowych modelach języka

Files

Praca_doktorska.pdf (17.68 MB)

Date

2024

Authors

Turski, Michał

Advisor

Graliński, Filip. Promotor

Title Alternative

Utilizing Structured Resources in Neural Language Models

Abstract

Większość badań w dziedzinie przetwarzania języka naturalnego koncentruje się na przetwarzaniu tekstu. Choć ten paradygmat jest bardzo skuteczny w wielu zastosowaniach, takich jak tłumaczenie maszynowe, automatyczne podsumowywanie i systemy dialogowe, nie potrafi w pełni wykorzystać bogactwa wielu dokumentów tworzonych przez i dla ludzi. Dokumenty przekazują znaczenie nie tylko przez warstwę tekstową, ale także poprzez swoją strukturę i cechy wizualne. Kluczowym wyzwaniem podejmowanym w tej pracy jest proponowanie rozwiązań rozszerzających najnowsze modele języka o wykorzystanie informacji strukturalnych celem poprawy jakości przetwarzania dokumentów. Niniejsza rozprawa składa się z pięciu prac naukowych w domenie rozumienia dokumentów i jest podzielona na dwie główne sekcje. Pierwsza sekcja dotyka problemu oceny modeli rozumienia dokumentów. Druga sekcja tej pracy podejmuje różne wyzwania w domenie rozumienia dokumentów, proponując innowacyjne rozwiązania mające na celu poprawę jakości modeli. Podsumowując, ta praca przyczynia się do rozwoju modeli rozumienia dokumentów, umożliwiając lepsze przetwarzanie i analizę dokumentów o bogatej strukturze. The majority of research in the field of Natural Language Processing is focused on processing plain text. While this paradigm is highly effective for numerous use cases, such as machine translation, summarization, and chatbots, it fails to fully harness the richness of many texts created by and for humans. Documents, on the other hand, convey meaning not only through their textual content but also through their structure and visual features. A key challenge tackled by this thesis is to develop solutions that combine recent advancements in language modeling with structural information to improve the processing and comprehension of documents. This thesis comprises five scientific papers in the domain of document understanding, divided into two main sections. The first section focuses on evaluating document understanding models. The second section of this thesis tackles various challenges in the document understanding domain, proposing innovative solutions to enhance model performance. Overall, this thesis contributes to the development of more accurate and useful document understanding models, enabling improved processing and comprehension of rich, structured documents.

Description

Wydział Matematyki i Informatyki

Keywords

uczenie maszynowe, przetwarzanie języka naturalnego, rozumienie dokumentów, machine learning, natural language processing, document understanding

URI

https://hdl.handle.net/10593/27885

Collections

Doktoraty 2010-2026 /dostęp ograniczony, możliwy z komputerów w Bibliotece Uniwersyteckiej/
Doktoraty (WMiI)

Full item page Statistics

Wykorzystanie zasobów ustrukturyzowanych w neuronowych modelach języka

Files

Date

Authors

Translator

Advisor

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Title Alternative

Abstract

Description

Sponsor

Keywords

Citation

Series

ISBN

ISSN

URI

DOI

Title Alternative

Collections

Endorsement

Review

Supplemented By

Referenced By