Zaprojektowanie oraz implementacja systemu automatycznej korekcji błędów i normalizacji wyjścia z systemu rozpoznawania mowy

Ziętkiewicz, Tomasz

Zaprojektowanie oraz implementacja systemu automatycznej korekcji błędów i normalizacji wyjścia z systemu rozpoznawania mowy

Files

tzietkiewicz_PhDThesis.pdf (910.96 KB)

Date

2024

Authors

Ziętkiewicz, Tomasz

Advisor

Marciniak, Jacek. Promotor
Kubis, Marek. Promotor pomocniczy

Title alternative

Design and implementation of a system for automatic error correction and normalization of speech recognition results

Abstract

Niniejsza rozprawa prezentuje zaproponowane przez autora metody automatycznej korekty błędów i normalizacji wyjścia z systemów rozpoznawania mowy. Przy ich opracowaniu brany był pod uwagę wdrożeniowy kontekst prowadzonych badań, które odbywały się z myślą o zastosowaniu opracowanych modeli w ramach systemów dialogowego. Praca przedstawia ten kontekst i specyfikę rozwoju modeli korekty ASR w środowisku przemysłowym. Zaproponowana w pracy metoda korekty błędów "Otaguj i popraw" traktuje problem korekty błędów jako problem tagowania sekwencji operacjami edycyjnymi. W pracy można znaleźć szczegółowy opis metody z uwzględnieniem użytego zbioru operacji edycyjnych, procesu generowania tagów operacji edycyjnych oraz metody ich aplikowania do poprawianego zdania. Zaprezentowane są wyniki licznych eksperymentów przeprowadzonych z jej użyciem na zróżnicowanych danych. Przedstawiono również metodę przywracania znaków interpunkcyjnych "Otaguj i przywróć", wzorowaną na metodzie "Otaguj i popraw". Opisane podejście do problemów korekty i normalizacji wyjścia z systemu rozpoznawania mowy charakteryzuje się możliwością precyzyjnej kontroli nad działaniem metody, a także możliwością łatwej interpretacji jego działania. Możliwość zastosowania z tą metodą dowolnych modeli tagowania sprawia, że można ją dostosować do środowiska, w którym metoda ma być wdrożona, poprzez wybór modeli o dopasowanych do środowiska wymaganiach obliczeniowych. Cechy te stanowią o użyteczności zaproponowanych metod w środowiskach produkcyjnych. Przedstawiono również zastosowanie zaproponowanej metody korekty błędów do badania wpływu błędów ASR na efektywność modeli NLU. This dissertation presents proposed methods for automatic error correction and normalization of speech recognition results. The development of these methods took into account the context of their deployment within dialogue systems. The paper presents this context and the specifics of the development of ASR correction models in an industrial environment. The "Tag and correct" error correction method proposed in the paper treats the problem of error correction as a problem of tagging sequences with editing operations. The paper offers a detailed description of the method including the set of edit operations used, the process of generating tags of edit operations, and a method of applying them to a sentence being corrected. The results of numerous experiments carried out on diverse datasets are presented. The "Tag and restore" method of restoring punctuation marks, inspired by the "Tag and correct" method, is also presented. The described approach to the problems of correction and normalization of output from a speech recognition system is characterized by the possibility of precise control over the operation of the method. The ability to use any tagging model within this method makes it adaptable to the environment in which the method is to be deployed, by selecting models with computational requirements that match the environment resources. These features account for the usefulness of the proposed methods in production environments. The application of the proposed error correction method to study the impact of ASR errors on the efficiency of NLU models is also presented.

Description

Wydział Matematyki i Informatyki

Keywords

korekta błędów, ASR, normalizacja, tagowanie sekwencji, rozpoznawanie mowy, error correction, normalization, sequence tagging, sequence labeling, speech recognition

URI

https://hdl.handle.net/10593/27697

Collections

Doktoraty 2010-2025 /dostęp otwarty/
Doktoraty (WMiI)

Full item page Statistics

Zaprojektowanie oraz implementacja systemu automatycznej korekcji błędów i normalizacji wyjścia z systemu rozpoznawania mowy

Files

Date

Authors

Advisor

Editor

Journal Title

Journal ISSN

Volume Title

Publisher

Title alternative

Abstract

Description

Sponsor

Keywords

Citation

Seria

ISBN

ISSN

URI

DOI

Title Alternative

Rights Creative Commons

Creative Commons License

Collections