Algorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeń

dc.contributor.advisorJassem, Krzysztof. Promotor
dc.contributor.authorSzał, Arkadiusz
dc.date.accessioned2013-03-20T07:44:54Z
dc.date.available2013-03-20T07:44:54Z
dc.date.issued2013-03-20
dc.descriptionWydział Matematyki i Informatyki: Pracownia Systemów Informacyjnychpl_PL
dc.description.abstractPraca opisuje istotną modyfikację algorytmu dopasowywania wyrazów stosowanego w narzędziu Giza++. Dopasowywanie wyrazów to proces polegający na powiązaniu odpowiadających sobie wyrazów między parą zdań, które stanowią wzajemne tłumaczenia. Proces ten stosowany jest zazwyczaj jako faza inicjująca (ucząca) w systemach tłumaczenia automatycznego metodami statystycznymi. Dla danego dwujęzycznego korpusu tekstów dopasowywanie odbywa się w obu kierunkach tłumaczenia, dając w wyniku macierze dopasowania dla każdego kierunku. W celu poprawienia jakości dopasowania wykorzystuje się symetryzację macierzy dopasowania. Proces ten polega na powiązaniu macierzy dopasowani wyrazów z obu kierunków obliczeń. W dotychczasowych algorytmach, stosowanych m.in., w narzędziach Giza++ (i jej pochodnych: MGiza++, PGiza++) obliczenia dokonywane są zgodnie z kolejnymi modelami statystycznymi IBM (modele 1 – 6 oraz model HMM), a symetryzacja wykonywana jest na końcu procesu obliczeń. W podejściu prezentowanym w tej pracy, symetryzacja wykonywana jest w trakcie procesu statystycznego dopasowywania wyrazów, a mianowicie po każdej iteracji obliczeń, zgodnej z danym modelem statystycznym. Pozwala to uzyskać więcej informacji o powiązaniach pomiędzy wyrazami już w trakcie obliczeń. Dzięki temu kolejne modele statystyczne mogą z większym prawdopodobieństwem i mniejszym współczynnikiem błędów dopasowywać wyrazy. Przeprowadzone testy potwierdziły znaczącą poprawę trafności dopasowania wyrazów, jak i jakości tłumaczenia wykorzystującego wygenerowane macierze dopasowania. Opracowane algorytmy zostały zaimplementowane i udostępnione publicznie w postaci narzędzia o nazwie SymGiza++. pl_PL
dc.description.abstractThe thesis describes a significant modification of an algorithm for statistical word alignment used in the Giza++ tool. Word alignment is a process, which consists in matching words in pairs of equivalent sentences in two different languages. This process usually forms the initiative (learning) phase in statistical machine translation systems. For a given bilingual corpus the alignment process is executed in both translation directions, resulting in directed alignment tables. The tables then undergo the process of symmetrization, which consists in compiling pairs of directed tables into undirected alignment tables, in order to improve the quality of alignment. In the previous algorithms, used in Giza++ (and its descendants: MGiza+, PGiza++) the computations are executed according to subsequent statistical IBM models (models 1 – 6, HMM), with symmetrization being the final step of the process. Here, symmetrization is done in the course of aligning, i.e. after each execution of subsequent statistical model. This allows achieving more information on word matchings in the course of the process. Statistical models are then calculated with more accurate probabilities and consequently the alignment error rate is minimized. Evaluation tests confirm a significant improvement of alignment quality as well as the quality of machine translation based on the alignment. Developed algorithms have been implemented and made publicly available as a computer tool SymGiza++.pl_PL
dc.identifier.urihttp://hdl.handle.net/10593/5562
dc.language.isoplpl_PL
dc.subjectalgorytmy dopasowania statystycznegopl_PL
dc.subjectstatistical word alignmentpl_PL
dc.subjectmodele IBMpl_PL
dc.subjectgizapl_PL
dc.subjectsymetryzacjapl_PL
dc.subjectsymmetrizationpl_PL
dc.subjectwielowątkowośćpl_PL
dc.subjectmultithreadingpl_PL
dc.titleAlgorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeńpl_PL
dc.title.alternativeStatistical Algorithms for Word Alignment using Multi-threading and Symmetrization of Computationspl_PL
dc.typeDysertacjapl_PL

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
szał137298dr.pdf
Size:
2.26 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.49 KB
Format:
Item-specific license agreed upon to submission
Description:
Uniwersytet im. Adama Mickiewicza w Poznaniu
Biblioteka Uniwersytetu im. Adama Mickiewicza w Poznaniu
Ministerstwo Nauki i Szkolnictwa Wyższego