Browsing by Author "Jassem, Krzysztof. Promotor"
Now showing 1 - 9 of 9
Results Per Page
Sort Options
Item Algorytmy automatycznej poprawy błędów językowych(2017) Grundkiewicz, Roman; Jassem, Krzysztof. PromotorNiniejsza praca doktorska dotyczy problemu automatycznej poprawy błędów językowych w tekstach pisanych przez osoby uczące się języka angielskiego jako języka obcego. Problem ten zbadano za pomocą metod tłumaczenia maszynowego. W celu zgromadzenia dodatkowych danych, opracowano metodę automatycznej ekstrakcji potencjalnych błędów językowych z historii edycji tekstu oraz stworzono największy publicznie dostępny korpus błędów. Zbadano automatyczne miary ewaluacji stosowane w dziedzinie pod kątem ich korelacji z ocenami ludzkimi poprzez wykonanie szczegółowego studium ewaluacji systemów do automatycznej korekty tekstu. Opracowany system, wykorzystujący metody statystycznego tłumaczenia maszynowego opartego na frazach, osiągnął najwyższe publikowane do tej pory wyniki na popularnym zestawie testowym CoNLL-2014 udostępnionym w ramach zadania organizowanego podczas Conference on Natural Language Processing w 2014 roku. W pracy pokazano jak istotne są właściwa optymalizacja modelu na podstawie przyjętej miary ewaluacji oraz zastosowanie nowych cech gęstych. Zbadano również dwie metody integracji algorytmów dyskryminacyjnych do generatywnego systemu tłumaczenia poprzez rozszerzenie modelu log-liniowego. Druga z metod – pierwsze zastosowanie cech rzadkich do zadania korekty tekstu – w sposób istotny rozszerza aktualny stan wiedzy w dziedzinie.Item Algorytmy dopasowania wyrazów metodami statystycznymi z wykorzystaniem wielowątkowości i symetryzacji obliczeń(2013-03-20) Szał, Arkadiusz; Jassem, Krzysztof. PromotorPraca opisuje istotną modyfikację algorytmu dopasowywania wyrazów stosowanego w narzędziu Giza++. Dopasowywanie wyrazów to proces polegający na powiązaniu odpowiadających sobie wyrazów między parą zdań, które stanowią wzajemne tłumaczenia. Proces ten stosowany jest zazwyczaj jako faza inicjująca (ucząca) w systemach tłumaczenia automatycznego metodami statystycznymi. Dla danego dwujęzycznego korpusu tekstów dopasowywanie odbywa się w obu kierunkach tłumaczenia, dając w wyniku macierze dopasowania dla każdego kierunku. W celu poprawienia jakości dopasowania wykorzystuje się symetryzację macierzy dopasowania. Proces ten polega na powiązaniu macierzy dopasowani wyrazów z obu kierunków obliczeń. W dotychczasowych algorytmach, stosowanych m.in., w narzędziach Giza++ (i jej pochodnych: MGiza++, PGiza++) obliczenia dokonywane są zgodnie z kolejnymi modelami statystycznymi IBM (modele 1 – 6 oraz model HMM), a symetryzacja wykonywana jest na końcu procesu obliczeń. W podejściu prezentowanym w tej pracy, symetryzacja wykonywana jest w trakcie procesu statystycznego dopasowywania wyrazów, a mianowicie po każdej iteracji obliczeń, zgodnej z danym modelem statystycznym. Pozwala to uzyskać więcej informacji o powiązaniach pomiędzy wyrazami już w trakcie obliczeń. Dzięki temu kolejne modele statystyczne mogą z większym prawdopodobieństwem i mniejszym współczynnikiem błędów dopasowywać wyrazy. Przeprowadzone testy potwierdziły znaczącą poprawę trafności dopasowania wyrazów, jak i jakości tłumaczenia wykorzystującego wygenerowane macierze dopasowania. Opracowane algorytmy zostały zaimplementowane i udostępnione publicznie w postaci narzędzia o nazwie SymGiza++.Item Algorytmy przeszukiwania i przetwarzania pamięci tłumaczeń(2013-05-24) Jaworski, Rafał; Jassem, Krzysztof. PromotorProblematyka niniejszej pracy dotyczy zagadnień przetwarzania języka naturalnego, wyszukiwania przybliżonego oraz analizy skupień. Celem pracy jest opracowanie wydajnych algorytmów do wspomagania pracy osoby tłumaczącej teksty z jednego języka naturalnego na inny. W niniejszej pracy opisane są dwa autorskie algorytmy operujące na pamięci tłumaczeń. Pierwszym z nich jest algorytm jej przeszukiwania. W obliczu faktu, iż tworzone są pamięci o coraz większej objętości, konieczne jest opracowane wydajnych technik ich przeszukiwania. Opracowany przez autora algorytm opiera się na osiągnięciach w dziedzinie wyszukiwania przybliżonego oraz przetwarzania języka naturalnego. Pożądane cechy algorytmu są zagwarantowane dzięki użyciu zaproponowanej przez autora funkcji odległości zdań, zachowującej dobre własności matematyczne. Algorytm charakteryzuje się niską złożonością obliczeniową czasową oraz pamięciową. Drugi algorytm przedstawiony w niniejszej pracy służy do przetwarzania pamięci tłumaczeń, w celu utworzenia nowej, specjalistycznej pamięci, zawierającej tłumaczenia szczególnie przydatne tłumaczowi. Algorytm jest oparty na zdobyczach teorii analizy skupień. Jego niska złożoność obliczeniowa pozwala na przetwarzanie pamięci tłumaczeń znacznej wielkości.Item Application of speech datasets management methods for the evaluation of Automatic Speech Recognition systems for Polish(2024) Junczyk, Michał; Jassem, Krzysztof. PromotorAutomatic Speech Recognition (ASR) systems convert speech to text, supporting virtual assistants and transcription. The effectiveness of ASR depends on extensive and diverse speech data sets. The Polish language, spoken by over 50 million people, poses unique challenges for ASR systems due to its complex phonetic and morphological structure. This study examines issues with the accessibility and interoperability of public speech data sets, which hinder ASR system verification. It reviewed 53 public data sets, organizing 24 of them to create a quality assessment process. The selected sets contain nearly 400,000 recordings and 800 hours of speech from 5,000 speakers, used to compare 7 ASR systems and 25 models. The results revealed significant performance differences. The study improved data management and comparative analysis, enhancing the practical usability of Polish ASR data sets. Organized data sets BIGOS and PELCRA were used for comprehensive tests. Improved documentation and data analysis, along with available testing tools, facilitate test replication and validation of other studies using the same data sets. In summary, the research supports the practical application of Polish ASR data sets, promoting methods, tools, and best practices in ASR system evaluation. Systemy automatycznego rozpoznawania mowy (ASR) konwertują mowę na tekst, wspierając wirtualnych asystentów i transkrypcje. Skuteczność ASR zależy od obszernych i różnorodnych zbiorów danych mowy. Język polski, używany przez ponad 50 milionów ludzi, stawia unikalne wyzwania systemom ASR ze względu na złożoną strukturę fonetyczną i morfologiczną. Badanie analizuje problemy z dostępnością i interoperacyjnością publicznych zbiorów danych mowy, co utrudnia weryfikację systemów ASR. Zbadano 53 publiczne zbiory danych, uporządkowano 24 z nich, tworząc proces oceny jakości. Wyselekcjonowane zbiory zawierają prawie 400 000 nagrań i 800 godzin mowy od 5000 mówców, użytych do porównania 7 systemów ASR i 25 modeli. Wyniki ujawniły znaczne różnice w wydajności. Badanie poprawiło zarządzanie danymi i analizę porównawczą, zwiększając praktyczną użyteczność dostępność polskich zbiorów danych ASR. Uporządkowane zbiory BIGOS i PELCRA zostały wykorzystane do przekrojowych testów. Udoskonalona dokumentacja i analiza danych oraz dostępność narzędzi do testowania ułatwia powtórzenie testów, oraz walidację wyników innych badań z użyciem tych samych zbiorów danych. Podsumowując, badania wspierają praktyczne zastosowanie polskich zbiorów danych ASR, promując metody, narzędzia i dobre praktyki w ocenie systemów ASR.Item Metody optymalizacji jakości w neuronowych systemach tłumaczenia maszynowego(2023) Nowakowski, Artur; Jassem, Krzysztof. Promotor; Lison, Maciej. Promotor pomocniczyRozprawa doktorska przedstawia nowe metody optymalizacji jakości w neuronowych systemach tłumaczenia maszynowego. Praca składa się z siedmiu artykułów naukowych zaprezentowanych podczas konferencji o zasięgu międzynarodowym. Rozdział 1 opisuje problem badawczy, motywację, strukturę i zakres rozprawy. Zawiera przegląd oraz krótki opis załączonych artykułów, w tym informacje o autorach, miejscu i typie prezentacji, a także wkładzie autora rozprawy. Rozdziały od 2 do 5 prezentują prace badawcze dotyczące metod optymalizacji jakości w neuronowych systemach tłumaczenia maszynowego. Zawierają również opisy metod zastosowanych w rozwiązaniach konkursów organizowanych w ramach konferencji. W rozdziałach 6 do 8 przedstawiono artykuły opisujące prace rozwojowe. W ramach artykułów opisano neuronowe systemy tłumaczenia maszynowego opracowane w trakcie doktoratu wdrożeniowego. W załącznikach zamieszczono certyfikat otrzymany od organizatorów konferencji WMT 2022 oraz deklaracje o wkładzie współautorów każdego artykułu. The thesis presents new quality optimization methods in neural machine translation systems. It is based on seven scientific papers presented at international conferences. Chapter 1 introduces the research problem, motivation, structure and scope of the thesis. It provides an overview of the included papers, together with details on authors, venues, presentation type, and the contribution of the thesis author. The chapter also contains a short description of each paper included in the thesis. Chapters 2 to 5 present research papers on quality optimization methods in neural machine translation systems. They also include descriptions of methods applied in the solutions of shared tasks held at scientific conferences. Chapters 6 to 8 present development papers that describe real-world neural machine translation systems developed as part of participation in the Industrial PhD program. The appendices include a certificate from the WMT 2022 conference organizers and declarations of contribution from the co-authors of each paper.Item Modele ewaluacji poprawności danych lingwistycznych pozyskanych metodą crowdsourcing(2023) Włodarczyk, Wojciech; Jassem, Krzysztof. PromotorCrowdsourcing pozwala na wykorzystanie zbiorowej inteligencji dużej grupy ludzi do rozwiązywania zadań z dziedzin takich jak sztuczna inteligencja, uczenie maszynowe i rozwój badań naukowych za pośrednictwem platform internetowych. Współcześnie badania nad rozwojem metody crowdsourcingu skupione są przede wszystkim w trzech obszarach: optymalizacji jakości pozyskanych danych, optymalizacji kosztu procesu oraz optymalizacji czasu trwania procesu. Niniejsza rozprawa skupia się na zagadnieniach związanych z optymalizacją jakości procesu crowdsourcingu dla zadań dotyczących danych lingwistycznych. Praca opisuje autorski model Dynamicznej Informacji Zwrotnej (DIZ), którego zadaniem jest generowanie informacji zwrotnej w sposób automatyczny. Rozprawa weryfikuje skuteczność tego modelu dla danych empirycznych oraz danych symulacyjnych. Analiza wyników przeprowadzonego eksperymentu wykazuje skuteczność modelu DIZ w poprawie jakości generowanej informacji zwrotnej, jednak jakość tego rozwiązana jest zależna od jakości oznaczeń tworzonych przez anotatorów. Crowdsourcing uses the collective intelligence of a large group of people to solve tasks in fields such as artificial intelligence, machine learning and scientific research development through online platforms. Nowadays, research on the development of the crowdsourcing method is focused primarily in three areas: optimization of the quality of acquired data, optimization of the cost of the process and optimization of the duration of the process. This dissertation focuses on issues related to optimizing the quality of the crowdsourcing process for tasks related to linguistic data. The work describes the author's Dynamic Feedback Model, whose task is to generate feedback automatically. The dissertation verifies the effectiveness of this model for empirical and simulation data. The analysis of the results of the experiment shows the effectiveness of the author's model in improving the quality of the generated feedback, but the quality of this solution depends on the quality of the markings created by annotators.Item Pozyskiwanie reguł tłumaczenia z korpusów oznaczonych składniowo(2011-06-10T14:32:29Z) Kowalski, Tomasz; Jassem, Krzysztof. PromotorCelem tej rozprawy jest przedstawienie i weryfikacja metody badania zbioru tekstów, złożonego z tekstu źródłowego oraz jego tłumaczenia na język polski. Wynikiem analizy jest zbiór reguł przeznaczonych do automatycznego tłumaczenia tekstów na język polski. Oprócz algorytmu analizy korpusu tekstów, przedstawiony został również algorytm, który stosuje pozyskane reguły do generowanie tłumaczeń na język polski.Item Wnioskowanie czasowo-przestrzenne w systemie Question Answering(2014-01-10) Walas, Marcin; Jassem, Krzysztof. PromotorW pracy omówiono zastosowanie wnioskowania czasowo-przestrzennego w systemie Question Answering (QA). Wnioskowanie zostało wykorzystane do zrealizowania dwóch zadań: opracowania bazy wiedzy przestrzennej (wykorzystywanej w procesie pozyskiwania odpowiedzi na pytania) oraz opracowania algorytmu odpowiadania na pytania typu tak/nie z aspektem czasowym i przestrzennym. Wnioskowanie zostało zrealizowane za pomocą rachunków RCC5, RCC8 oraz algebry Allena. W procesie zbierania bazy wiedzy przestrzennej wnioskowanie wykorzystano jako główny element algorytmu ujednoznaczniania nazw obiektów (nazwą niejednoznaczną jest np. Poznań, ponieważ istnieją dwie polskie miejscowości o tej nazwie). W procesie odpowiadania na pytania wnioskowanie zostało użyte jako wsparcie powierzchniowych metod przetwarzania języka naturalnego. Opisane w pracy algorytmy zostały zaimplementowane w autorskim prototypie systemu QA działającego w języku polskim. Przeprowadzono ewaluację algorytmów na korpusie pytań testowych. Wyniki eksperymentu ewaluacji potwierdziły istotny wzrost jakości systemu poszerzonego o opracowane algorytmy w porównaniu do wersji systemu bez mechanizmów wnioskowania.Item Wydajne algorytmy parsowania dla języków o szyku swobodnym(2014-05-30) Skórzewski, Paweł; Jassem, Krzysztof. PromotorNiniejsza rozprawa stawia sobie za cel zbadanie pewnego problemu teoretycznego z zakresu gramatyk probabilistycznych oraz optymalizację związanego z nim problemu implementacyjnego. Część teoretyczna poświęcona jest zagadnieniom formalnego opisu języków o szyku swobodnym i algorytmom ich analizy składniowej. Rozważam w niej sposoby wykorzystywania gramatyk probabilistycznych do opisu języków swobodnego szyku. Definiuję autorski formalizm probabilistycznych gramatyk binarnych generujących drzewa (PTgBG), który stanowi probabilistyczne rozszerzenie formalizmu TgBG (gramatyk binarnych generujących drzewa). Prezentuję również parser wykorzystujący ten formalizm. Z drugiej strony celem niniejszej pracy jest zbadanie, w jaki sposób implementacja algorytmu parsowania wpływa na jego wydajność. W szczególności, przedstawiam proces adaptacji parsera do systemu przetwarzania języka naturalnego. Analizuję napotkane trudności i ewaluuję wydajność na poszczególnych etapach optymalizacji. Przedstawiam też wnioski płynące z tego procesu.