Algorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeń

Szał, Arkadiusz

Algorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeń

Files

szał137298dr.pdf (2.26 MB)

Date

2013-03-20

Authors

Szał, Arkadiusz

Advisor

Jassem, Krzysztof. Promotor

Title Alternative

Statistical Algorithms for Word Alignment using Multi-threading and Symmetrization of Computations

Abstract

Praca opisuje istotną modyfikację algorytmu dopasowywania wyrazów stosowanego w narzędziu Giza++. Dopasowywanie wyrazów to proces polegający na powiązaniu odpowiadających sobie wyrazów między parą zdań, które stanowią wzajemne tłumaczenia. Proces ten stosowany jest zazwyczaj jako faza inicjująca (ucząca) w systemach tłumaczenia automatycznego metodami statystycznymi. Dla danego dwujęzycznego korpusu tekstów dopasowywanie odbywa się w obu kierunkach tłumaczenia, dając w wyniku macierze dopasowania dla każdego kierunku. W celu poprawienia jakości dopasowania wykorzystuje się symetryzację macierzy dopasowania. Proces ten polega na powiązaniu macierzy dopasowani wyrazów z obu kierunków obliczeń. W dotychczasowych algorytmach, stosowanych m.in., w narzędziach Giza++ (i jej pochodnych: MGiza++, PGiza++) obliczenia dokonywane są zgodnie z kolejnymi modelami statystycznymi IBM (modele 1 – 6 oraz model HMM), a symetryzacja wykonywana jest na końcu procesu obliczeń. W podejściu prezentowanym w tej pracy, symetryzacja wykonywana jest w trakcie procesu statystycznego dopasowywania wyrazów, a mianowicie po każdej iteracji obliczeń, zgodnej z danym modelem statystycznym. Pozwala to uzyskać więcej informacji o powiązaniach pomiędzy wyrazami już w trakcie obliczeń. Dzięki temu kolejne modele statystyczne mogą z większym prawdopodobieństwem i mniejszym współczynnikiem błędów dopasowywać wyrazy. Przeprowadzone testy potwierdziły znaczącą poprawę trafności dopasowania wyrazów, jak i jakości tłumaczenia wykorzystującego wygenerowane macierze dopasowania. Opracowane algorytmy zostały zaimplementowane i udostępnione publicznie w postaci narzędzia o nazwie SymGiza++.
The thesis describes a significant modification of an algorithm for statistical word alignment used in the Giza++ tool. Word alignment is a process, which consists in matching words in pairs of equivalent sentences in two different languages. This process usually forms the initiative (learning) phase in statistical machine translation systems. For a given bilingual corpus the alignment process is executed in both translation directions, resulting in directed alignment tables. The tables then undergo the process of symmetrization, which consists in compiling pairs of directed tables into undirected alignment tables, in order to improve the quality of alignment. In the previous algorithms, used in Giza++ (and its descendants: MGiza+, PGiza++) the computations are executed according to subsequent statistical IBM models (models 1 – 6, HMM), with symmetrization being the final step of the process. Here, symmetrization is done in the course of aligning, i.e. after each execution of subsequent statistical model. This allows achieving more information on word matchings in the course of the process. Statistical models are then calculated with more accurate probabilities and consequently the alignment error rate is minimized. Evaluation tests confirm a significant improvement of alignment quality as well as the quality of machine translation based on the alignment. Developed algorithms have been implemented and made publicly available as a computer tool SymGiza++.

Description

Wydział Matematyki i Informatyki: Pracownia Systemów Informacyjnych

Keywords

algorytmy dopasowania statystycznego, statistical word alignment, modele IBM, giza, symetryzacja, symmetrization, wielowątkowość, multithreading

URI

http://hdl.handle.net/10593/5562

Collections

Doktoraty 2010-2026 /dostęp otwarty/
Doktoraty (WMiI)

Full item page Statistics

Algorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeń

Files

Date

Authors

Translator

Advisor

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Title Alternative

Abstract

Description

Sponsor

Keywords

Citation

Series

ISBN

ISSN

URI

DOI

Title Alternative

Collections

Endorsement

Review

Supplemented By

Referenced By