Algorytmy automatycznej poprawy błędów językowych
Loading...
Date
2017
Authors
Advisor
Editor
Journal Title
Journal ISSN
Volume Title
Publisher
Title alternative
Algorithms for automatic grammatical error correction
Abstract
Niniejsza praca doktorska dotyczy problemu automatycznej poprawy błędów językowych w tekstach pisanych przez osoby uczące się języka angielskiego jako języka obcego. Problem ten zbadano za pomocą metod tłumaczenia maszynowego. W celu zgromadzenia dodatkowych danych, opracowano metodę automatycznej ekstrakcji potencjalnych błędów językowych z historii edycji tekstu oraz stworzono największy publicznie dostępny korpus błędów. Zbadano automatyczne miary ewaluacji stosowane w dziedzinie pod kątem ich korelacji z ocenami ludzkimi poprzez wykonanie szczegółowego studium ewaluacji systemów do automatycznej korekty tekstu. Opracowany system, wykorzystujący metody statystycznego tłumaczenia maszynowego opartego na frazach, osiągnął najwyższe publikowane do tej pory wyniki na popularnym zestawie testowym CoNLL-2014 udostępnionym w ramach zadania organizowanego podczas Conference on Natural Language Processing w 2014 roku. W pracy pokazano jak istotne są właściwa optymalizacja modelu na podstawie przyjętej miary ewaluacji oraz zastosowanie nowych cech gęstych. Zbadano również dwie metody integracji algorytmów dyskryminacyjnych do generatywnego systemu tłumaczenia poprzez rozszerzenie modelu log-liniowego. Druga z metod – pierwsze zastosowanie cech rzadkich do zadania korekty tekstu – w sposób istotny rozszerza aktualny stan wiedzy w dziedzinie.
This thesis explores the problem of automated grammatical error correction (GEC) in texts written by non-native English speakers. Our main focus is the machine translation approach to GEC. To overcome the data sparsity problem, we have developed a method for the automatic extraction of potential errors from Wikipedia text edition histories, and created the largest publicly available error annotated corpus so far. We investigate the usefulness of automatic GEC-specific metrics on the basis of their correlation with human judgements by conducting the first large-scale human evaluation study of automated GEC systems. Our proposed phrase-based statistical machine translation (SMT) system achieved new state-of-the-art results on the CoNLL-2014 test data – a standard benchmark for GEC provided during the Conference on Natural Language Learning shared task in 2014. We have shown that parameter optimization towards the task-specific evaluation metric and new GEC-adapted dense features are crucial for building a reliable and effective SMT-based GEC system. We also examined two methods which incorporate discriminative components into the generative SMT log-linear model. In the case of the second method – the first reported application of sparse features to GEC – our results significantly improve over the previous state-of-the-art in the field.
This thesis explores the problem of automated grammatical error correction (GEC) in texts written by non-native English speakers. Our main focus is the machine translation approach to GEC. To overcome the data sparsity problem, we have developed a method for the automatic extraction of potential errors from Wikipedia text edition histories, and created the largest publicly available error annotated corpus so far. We investigate the usefulness of automatic GEC-specific metrics on the basis of their correlation with human judgements by conducting the first large-scale human evaluation study of automated GEC systems. Our proposed phrase-based statistical machine translation (SMT) system achieved new state-of-the-art results on the CoNLL-2014 test data – a standard benchmark for GEC provided during the Conference on Natural Language Learning shared task in 2014. We have shown that parameter optimization towards the task-specific evaluation metric and new GEC-adapted dense features are crucial for building a reliable and effective SMT-based GEC system. We also examined two methods which incorporate discriminative components into the generative SMT log-linear model. In the case of the second method – the first reported application of sparse features to GEC – our results significantly improve over the previous state-of-the-art in the field.
Description
Wydział Matematyki i Informatyki
Sponsor
Keywords
poprawa błędów gramatycznych, grammatical error correction, statystyczne tłumaczenie maszynowe, statistical machine translation, optymalizacja, optimization, cechy rzadkie, sparse features