Algorytmy przeszukiwania i przetwarzania pamięci tłumaczeń

Jaworski, RafałAlgorytmy przeszukiwania i przetwarzania pamięci tłumaczeńAlgorithms for translation memory searching and processingMy University2013pamięćmemorytłumaczenietranslationwyszukiwaniesearchingprzetwarzanieprocessingalgorytmalgorithmMy UniversityMy UniversityJassem, Krzysztof. Promotor2013-05-242013-05-242013-05-24pldoctoral thesishttp://hdl.handle.net/10593/6303Wydział Matematyki i InformatykiProblematyka niniejszej pracy dotyczy zagadnień przetwarzania języka naturalnego, wyszukiwania przybliżonego oraz analizy skupień. Celem pracy jest opracowanie wydajnych algorytmów do wspomagania pracy osoby tłumaczącej teksty z jednego języka naturalnego na inny. W niniejszej pracy opisane są dwa autorskie algorytmy operujące na pamięci tłumaczeń. Pierwszym z nich jest algorytm jej przeszukiwania. W obliczu faktu, iż tworzone są pamięci o coraz większej objętości, konieczne jest opracowane wydajnych technik ich przeszukiwania. Opracowany przez autora algorytm opiera się na osiągnięciach w dziedzinie wyszukiwania przybliżonego oraz przetwarzania języka naturalnego. Pożądane cechy algorytmu są zagwarantowane dzięki użyciu zaproponowanej przez autora funkcji odległości zdań, zachowującej dobre własności matematyczne. Algorytm charakteryzuje się niską złożonością obliczeniową czasową oraz pamięciową. Drugi algorytm przedstawiony w niniejszej pracy służy do przetwarzania pamięci tłumaczeń, w celu utworzenia nowej, specjalistycznej pamięci, zawierającej tłumaczenia szczególnie przydatne tłumaczowi. Algorytm jest oparty na zdobyczach teorii analizy skupień. Jego niska złożoność obliczeniowa pozwala na przetwarzanie pamięci tłumaczeń znacznej wielkości.The thesis concerns issues from the fields of natural language processing, fuzzy searching and data clustering. The aim of the research is to develop efficient algorithms facilitating the work of a human translator. The thesis contains a description of two author’s algorithms operating on a translation memory. One of the algorithms is used to search the memory. As translation memories tend to increase their capacities considerably, it is crucial that the search algorithm should be efficient. . The algorithm proposed by the author is based on achievements in the field of fuzzy string searching and natural language processing. Desired features of the algorithm are guaranteed by the use of author's sentence distance function, having good mathematical properties. The key characteristic of the algorithm is low computational complexity in terms of time and memory. The other algorithm described in this thesis is used for the processing of translation memory The aim is to create a new, narrow-domain memory, containing data of high value for the translator. The algorithm is based on achievements in the field of data clustering. Its low computational complexity allows for processing large translation memories.