Algorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeń

Szał, Arkadiusz

Algorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeń

dc.contributor.advisor	Jassem, Krzysztof. Promotor
dc.contributor.author	Szał, Arkadiusz
dc.date.accessioned	2013-03-20T07:44:54Z
dc.date.available	2013-03-20T07:44:54Z
dc.date.issued	2013-03-20
dc.description	Wydział Matematyki i Informatyki: Pracownia Systemów Informacyjnych	pl_PL
dc.description.abstract	Praca opisuje istotną modyfikację algorytmu dopasowywania wyrazów stosowanego w narzędziu Giza++. Dopasowywanie wyrazów to proces polegający na powiązaniu odpowiadających sobie wyrazów między parą zdań, które stanowią wzajemne tłumaczenia. Proces ten stosowany jest zazwyczaj jako faza inicjująca (ucząca) w systemach tłumaczenia automatycznego metodami statystycznymi. Dla danego dwujęzycznego korpusu tekstów dopasowywanie odbywa się w obu kierunkach tłumaczenia, dając w wyniku macierze dopasowania dla każdego kierunku. W celu poprawienia jakości dopasowania wykorzystuje się symetryzację macierzy dopasowania. Proces ten polega na powiązaniu macierzy dopasowani wyrazów z obu kierunków obliczeń. W dotychczasowych algorytmach, stosowanych m.in., w narzędziach Giza++ (i jej pochodnych: MGiza++, PGiza++) obliczenia dokonywane są zgodnie z kolejnymi modelami statystycznymi IBM (modele 1 – 6 oraz model HMM), a symetryzacja wykonywana jest na końcu procesu obliczeń. W podejściu prezentowanym w tej pracy, symetryzacja wykonywana jest w trakcie procesu statystycznego dopasowywania wyrazów, a mianowicie po każdej iteracji obliczeń, zgodnej z danym modelem statystycznym. Pozwala to uzyskać więcej informacji o powiązaniach pomiędzy wyrazami już w trakcie obliczeń. Dzięki temu kolejne modele statystyczne mogą z większym prawdopodobieństwem i mniejszym współczynnikiem błędów dopasowywać wyrazy. Przeprowadzone testy potwierdziły znaczącą poprawę trafności dopasowania wyrazów, jak i jakości tłumaczenia wykorzystującego wygenerowane macierze dopasowania. Opracowane algorytmy zostały zaimplementowane i udostępnione publicznie w postaci narzędzia o nazwie SymGiza++.	pl_PL
dc.description.abstract	The thesis describes a significant modification of an algorithm for statistical word alignment used in the Giza++ tool. Word alignment is a process, which consists in matching words in pairs of equivalent sentences in two different languages. This process usually forms the initiative (learning) phase in statistical machine translation systems. For a given bilingual corpus the alignment process is executed in both translation directions, resulting in directed alignment tables. The tables then undergo the process of symmetrization, which consists in compiling pairs of directed tables into undirected alignment tables, in order to improve the quality of alignment. In the previous algorithms, used in Giza++ (and its descendants: MGiza+, PGiza++) the computations are executed according to subsequent statistical IBM models (models 1 – 6, HMM), with symmetrization being the final step of the process. Here, symmetrization is done in the course of aligning, i.e. after each execution of subsequent statistical model. This allows achieving more information on word matchings in the course of the process. Statistical models are then calculated with more accurate probabilities and consequently the alignment error rate is minimized. Evaluation tests confirm a significant improvement of alignment quality as well as the quality of machine translation based on the alignment. Developed algorithms have been implemented and made publicly available as a computer tool SymGiza++.	pl_PL
dc.identifier.uri	http://hdl.handle.net/10593/5562
dc.language.iso	pl	pl_PL
dc.subject	algorytmy dopasowania statystycznego	pl_PL
dc.subject	statistical word alignment	pl_PL
dc.subject	modele IBM	pl_PL
dc.subject	giza	pl_PL
dc.subject	symetryzacja	pl_PL
dc.subject	symmetrization	pl_PL
dc.subject	wielowątkowość	pl_PL
dc.subject	multithreading	pl_PL
dc.title	Algorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeń	pl_PL
dc.title.alternative	Statistical Algorithms for Word Alignment using Multi-threading and Symmetrization of Computations	pl_PL
dc.type	doctoral thesis

Files

Original bundle

Now showing 1 - 1 of 1

Name:: szał137298dr.pdf
Size:: 2.26 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.49 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Doktoraty 2010-2026 /dostęp otwarty/
Doktoraty (WMiI)