Application of speech datasets management methods for the evaluation of Automatic Speech Recognition systems for Polish

Loading...
Thumbnail Image

Date

2024

Editor

Journal Title

Journal ISSN

Volume Title

Publisher

Title alternative

Zastosowanie metod zarządzania zbiorami nagrań mowy do oceny jakości systemów automatycznego rozpoznawania mowy dla języka polskiego

Abstract

Automatic Speech Recognition (ASR) systems convert speech to text, supporting virtual assistants and transcription. The effectiveness of ASR depends on extensive and diverse speech data sets. The Polish language, spoken by over 50 million people, poses unique challenges for ASR systems due to its complex phonetic and morphological structure. This study examines issues with the accessibility and interoperability of public speech data sets, which hinder ASR system verification. It reviewed 53 public data sets, organizing 24 of them to create a quality assessment process. The selected sets contain nearly 400,000 recordings and 800 hours of speech from 5,000 speakers, used to compare 7 ASR systems and 25 models. The results revealed significant performance differences. The study improved data management and comparative analysis, enhancing the practical usability of Polish ASR data sets. Organized data sets BIGOS and PELCRA were used for comprehensive tests. Improved documentation and data analysis, along with available testing tools, facilitate test replication and validation of other studies using the same data sets. In summary, the research supports the practical application of Polish ASR data sets, promoting methods, tools, and best practices in ASR system evaluation. Systemy automatycznego rozpoznawania mowy (ASR) konwertują mowę na tekst, wspierając wirtualnych asystentów i transkrypcje. Skuteczność ASR zależy od obszernych i różnorodnych zbiorów danych mowy. Język polski, używany przez ponad 50 milionów ludzi, stawia unikalne wyzwania systemom ASR ze względu na złożoną strukturę fonetyczną i morfologiczną. Badanie analizuje problemy z dostępnością i interoperacyjnością publicznych zbiorów danych mowy, co utrudnia weryfikację systemów ASR. Zbadano 53 publiczne zbiory danych, uporządkowano 24 z nich, tworząc proces oceny jakości. Wyselekcjonowane zbiory zawierają prawie 400 000 nagrań i 800 godzin mowy od 5000 mówców, użytych do porównania 7 systemów ASR i 25 modeli. Wyniki ujawniły znaczne różnice w wydajności. Badanie poprawiło zarządzanie danymi i analizę porównawczą, zwiększając praktyczną użyteczność dostępność polskich zbiorów danych ASR. Uporządkowane zbiory BIGOS i PELCRA zostały wykorzystane do przekrojowych testów. Udoskonalona dokumentacja i analiza danych oraz dostępność narzędzi do testowania ułatwia powtórzenie testów, oraz walidację wyników innych badań z użyciem tych samych zbiorów danych. Podsumowując, badania wspierają praktyczne zastosowanie polskich zbiorów danych ASR, promując metody, narzędzia i dobre praktyki w ocenie systemów ASR.

Description

Wydział Matematyki i Informatyki

Sponsor

Keywords

automatic speech recognition, evaluation, data management, machine learning, speech corpus, automatyczne rozpoznawanie mowy, ewaluacja, zarządzanie danymi, uczenie maszynowe, korpus mowy

Citation

Seria

ISBN

ISSN

DOI

Title Alternative

Rights Creative Commons

Creative Commons License

Uniwersytet im. Adama Mickiewicza w Poznaniu
Biblioteka Uniwersytetu im. Adama Mickiewicza w Poznaniu
Ministerstwo Nauki i Szkolnictwa Wyższego