Algorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeń

Szał, ArkadiuszAlgorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeńStatistical Algorithms for Word Alignment using Multi-threading and Symmetrization of ComputationsMy University2013algorytmy dopasowania statystycznegostatistical word alignmentmodele IBMgizasymetryzacjasymmetrizationwielowątkowośćmultithreadingMy UniversityMy UniversityJassem, Krzysztof. Promotor2013-03-202013-03-202013-03-20pldoctoral thesishttp://hdl.handle.net/10593/5562Wydział Matematyki i Informatyki: Pracownia Systemów InformacyjnychPraca opisuje istotną modyfikację algorytmu dopasowywania wyrazów stosowanego w narzędziu Giza++. Dopasowywanie wyrazów to proces polegający na powiązaniu odpowiadających sobie wyrazów między parą zdań, które stanowią wzajemne tłumaczenia. Proces ten stosowany jest zazwyczaj jako faza inicjująca (ucząca) w systemach tłumaczenia automatycznego metodami statystycznymi. Dla danego dwujęzycznego korpusu tekstów dopasowywanie odbywa się w obu kierunkach tłumaczenia, dając w wyniku macierze dopasowania dla każdego kierunku. W celu poprawienia jakości dopasowania wykorzystuje się symetryzację macierzy dopasowania. Proces ten polega na powiązaniu macierzy dopasowani wyrazów z obu kierunków obliczeń. W dotychczasowych algorytmach, stosowanych m.in., w narzędziach Giza++ (i jej pochodnych: MGiza++, PGiza++) obliczenia dokonywane są zgodnie z kolejnymi modelami statystycznymi IBM (modele 1 – 6 oraz model HMM), a symetryzacja wykonywana jest na końcu procesu obliczeń. W podejściu prezentowanym w tej pracy, symetryzacja wykonywana jest w trakcie procesu statystycznego dopasowywania wyrazów, a mianowicie po każdej iteracji obliczeń, zgodnej z danym modelem statystycznym. Pozwala to uzyskać więcej informacji o powiązaniach pomiędzy wyrazami już w trakcie obliczeń. Dzięki temu kolejne modele statystyczne mogą z większym prawdopodobieństwem i mniejszym współczynnikiem błędów dopasowywać wyrazy. Przeprowadzone testy potwierdziły znaczącą poprawę trafności dopasowania wyrazów, jak i jakości tłumaczenia wykorzystującego wygenerowane macierze dopasowania. Opracowane algorytmy zostały zaimplementowane i udostępnione publicznie w postaci narzędzia o nazwie SymGiza++.The thesis describes a significant modification of an algorithm for statistical word alignment used in the Giza++ tool. Word alignment is a process, which consists in matching words in pairs of equivalent sentences in two different languages. This process usually forms the initiative (learning) phase in statistical machine translation systems. For a given bilingual corpus the alignment process is executed in both translation directions, resulting in directed alignment tables. The tables then undergo the process of symmetrization, which consists in compiling pairs of directed tables into undirected alignment tables, in order to improve the quality of alignment. In the previous algorithms, used in Giza++ (and its descendants: MGiza+, PGiza++) the computations are executed according to subsequent statistical IBM models (models 1 – 6, HMM), with symmetrization being the final step of the process. Here, symmetrization is done in the course of aligning, i.e. after each execution of subsequent statistical model. This allows achieving more information on word matchings in the course of the process. Statistical models are then calculated with more accurate probabilities and consequently the alignment error rate is minimized. Evaluation tests confirm a significant improvement of alignment quality as well as the quality of machine translation based on the alignment. Developed algorithms have been implemented and made publicly available as a computer tool SymGiza++.