Algorytmy automatycznej poprawy błędów językowych

Grundkiewicz, Roman

Algorytmy automatycznej poprawy błędów językowych

dc.contributor.advisor	Jassem, Krzysztof. Promotor
dc.contributor.author	Grundkiewicz, Roman
dc.date.accessioned	2018-03-14T12:21:37Z
dc.date.available	2018-03-14T12:21:37Z
dc.date.issued	2017
dc.description	Wydział Matematyki i Informatyki	pl
dc.description.abstract	Niniejsza praca doktorska dotyczy problemu automatycznej poprawy błędów językowych w tekstach pisanych przez osoby uczące się języka angielskiego jako języka obcego. Problem ten zbadano za pomocą metod tłumaczenia maszynowego. W celu zgromadzenia dodatkowych danych, opracowano metodę automatycznej ekstrakcji potencjalnych błędów językowych z historii edycji tekstu oraz stworzono największy publicznie dostępny korpus błędów. Zbadano automatyczne miary ewaluacji stosowane w dziedzinie pod kątem ich korelacji z ocenami ludzkimi poprzez wykonanie szczegółowego studium ewaluacji systemów do automatycznej korekty tekstu. Opracowany system, wykorzystujący metody statystycznego tłumaczenia maszynowego opartego na frazach, osiągnął najwyższe publikowane do tej pory wyniki na popularnym zestawie testowym CoNLL-2014 udostępnionym w ramach zadania organizowanego podczas Conference on Natural Language Processing w 2014 roku. W pracy pokazano jak istotne są właściwa optymalizacja modelu na podstawie przyjętej miary ewaluacji oraz zastosowanie nowych cech gęstych. Zbadano również dwie metody integracji algorytmów dyskryminacyjnych do generatywnego systemu tłumaczenia poprzez rozszerzenie modelu log-liniowego. Druga z metod – pierwsze zastosowanie cech rzadkich do zadania korekty tekstu – w sposób istotny rozszerza aktualny stan wiedzy w dziedzinie.	pl
dc.description.abstract	This thesis explores the problem of automated grammatical error correction (GEC) in texts written by non-native English speakers. Our main focus is the machine translation approach to GEC. To overcome the data sparsity problem, we have developed a method for the automatic extraction of potential errors from Wikipedia text edition histories, and created the largest publicly available error annotated corpus so far. We investigate the usefulness of automatic GEC-specific metrics on the basis of their correlation with human judgements by conducting the first large-scale human evaluation study of automated GEC systems. Our proposed phrase-based statistical machine translation (SMT) system achieved new state-of-the-art results on the CoNLL-2014 test data – a standard benchmark for GEC provided during the Conference on Natural Language Learning shared task in 2014. We have shown that parameter optimization towards the task-specific evaluation metric and new GEC-adapted dense features are crucial for building a reliable and effective SMT-based GEC system. We also examined two methods which incorporate discriminative components into the generative SMT log-linear model. In the case of the second method – the first reported application of sparse features to GEC – our results significantly improve over the previous state-of-the-art in the field.	pl
dc.identifier.uri	http://hdl.handle.net/10593/22067
dc.language.iso	en	pl
dc.rights	info:eu-repo/semantics/restrictedAccess	pl
dc.subject	poprawa błędów gramatycznych	pl
dc.subject	grammatical error correction	pl
dc.subject	statystyczne tłumaczenie maszynowe	pl
dc.subject	statistical machine translation	pl
dc.subject	optymalizacja	pl
dc.subject	optimization	pl
dc.subject	cechy rzadkie	pl
dc.subject	sparse features	pl
dc.title	Algorytmy automatycznej poprawy błędów językowych	pl
dc.title.alternative	Algorithms for automatic grammatical error correction	pl
dc.type	doctoral thesis

Collections

Doktoraty 2010-2026 /dostęp ograniczony, możliwy z komputerów w Bibliotece Uniwersyteckiej/
Doktoraty (WMiI)

Algorytmy automatycznej poprawy błędów językowych

Files

Collections