Zaprojektowanie oraz implementacja systemu automatycznej korekcji błędów i normalizacji wyjścia z systemu rozpoznawania mowy
Loading...
Date
2024
Authors
Editor
Journal Title
Journal ISSN
Volume Title
Publisher
Title alternative
Design and implementation of a system for automatic error correction and normalization of speech recognition results
Abstract
Niniejsza rozprawa prezentuje zaproponowane przez autora metody automatycznej korekty błędów i normalizacji wyjścia z systemów rozpoznawania mowy. Przy ich opracowaniu brany był pod uwagę wdrożeniowy kontekst prowadzonych badań, które odbywały się z myślą o zastosowaniu opracowanych modeli w ramach systemów dialogowego. Praca przedstawia ten kontekst i specyfikę rozwoju modeli korekty ASR w środowisku przemysłowym. Zaproponowana w pracy metoda korekty błędów "Otaguj i popraw" traktuje problem korekty błędów jako problem tagowania sekwencji operacjami edycyjnymi. W pracy można znaleźć szczegółowy opis metody z uwzględnieniem użytego zbioru operacji edycyjnych, procesu generowania tagów operacji edycyjnych oraz metody ich aplikowania do poprawianego zdania. Zaprezentowane są wyniki licznych eksperymentów przeprowadzonych z jej użyciem na zróżnicowanych danych. Przedstawiono również metodę przywracania znaków interpunkcyjnych "Otaguj i przywróć", wzorowaną na metodzie "Otaguj i popraw". Opisane podejście do problemów korekty i normalizacji wyjścia z systemu rozpoznawania mowy charakteryzuje się możliwością precyzyjnej kontroli nad działaniem metody, a także możliwością łatwej interpretacji jego działania. Możliwość zastosowania z tą metodą dowolnych modeli tagowania sprawia, że można ją dostosować do środowiska, w którym metoda ma być wdrożona, poprzez wybór modeli o dopasowanych do środowiska wymaganiach obliczeniowych. Cechy te stanowią o użyteczności zaproponowanych metod w środowiskach produkcyjnych. Przedstawiono również zastosowanie zaproponowanej metody korekty błędów do badania wpływu błędów ASR na efektywność modeli NLU.
This dissertation presents proposed methods for automatic error correction and normalization of speech recognition results. The development of these methods took into account the context of their deployment within dialogue systems. The paper presents this context and the specifics of the development of ASR correction models in an industrial environment. The "Tag and correct" error correction method proposed in the paper treats the problem of error correction as a problem of tagging sequences with editing operations. The paper offers a detailed description of the method including the set of edit operations used, the process of generating tags of edit operations, and a method of applying them to a sentence being corrected. The results of numerous experiments carried out on diverse datasets are presented. The "Tag and restore" method of restoring punctuation marks, inspired by the "Tag and correct" method, is also presented. The described approach to the problems of correction and normalization of output from a speech recognition system is characterized by the possibility of precise control over the operation of the method. The ability to use any tagging model within this method makes it adaptable to the environment in which the method is to be deployed, by selecting models with computational requirements that match the environment resources. These features account for the usefulness of the proposed methods in production environments. The application of the proposed error correction method to study the impact of ASR errors on the efficiency of NLU models is also presented.
Description
Wydział Matematyki i Informatyki
Sponsor
Keywords
korekta błędów, ASR, normalizacja, tagowanie sekwencji, rozpoznawanie mowy, error correction, normalization, sequence tagging, sequence labeling, speech recognition