Modelowanie polskiej intonacji dla statystyczno-parametrycznej syntezy mowy

dc.contributor.advisorDemenko, Grażyna. Promotor
dc.contributor.authorKuczmarski, Tomasz
dc.date.accessioned2022-05-09T08:25:54Z
dc.date.available2022-05-09T08:25:54Z
dc.date.issued2022
dc.descriptionWydział Neofilologiipl
dc.description.abstractBieżąca praca prezentuje próbę budowy neurobiologicznie umotywowanego modelu mapowań pomiędzy wysokopoziomowymi dyskretnymi kategoriami lingwistycznymi a ciągłym sygnałem częstotliwości podstawowej w polskiej neutralnej mowie czytanej, w oparciu o konwolucyjne sieci neuronowe. Po krótkim wprowadzeniu w problem badawczy w kontekście intonacji, syntezy mowy oraz luki pomiędzy fonetyką a fonologią, praca przedstawia opis uczenia modelu na podstawie specjalnego korpusu mowy oraz ewaluację naturalności konturu F0 generowanego przez wyuczony model za pomocą eksperymentów percepcyjnych typu ABX oraz MOS przy użyciu specjalnie w tym celu zbudowanego resyntezatora Neural Source Filter. Następnie, prezentowane są wyniki eksploracji fonologiczno-fonetycznych mapowań wyuczonych przez model. W tym celu wykorzystana została jedna z tzw. metod wyjaśniających dla sztucznej inteligencji – Layer-wise Relevance Propagation. W pracy przedstawione zostały wyniki powstałej na tej podstawie obszernej analizy ilościowej istotności dla konturu częstotliwości podstawowej każdej z 1297 specjalnie wygenerowanych lingwistycznych kategorii wejściowych modelu oraz ich wielorakich grupowań na różnorodnych poziomach abstrakcji. Pracę kończy dogłębna analiza oraz interpretacja uzyskanych wyników oraz rozważania na temat mocnych oraz słabych stron zastosowanych metod, a także lista proponowanych usprawnień. pl
dc.description.abstractThis work presents an attempt to build a neurobiologically inspired Convolutional Neural Network-based model of the mappings between discrete high-level linguistic categories into a continuous signal of fundamental frequency in Polish neutral read speech. After a brief introduction of the current research problem in the context of intonation, speech synthesis and the phonetic-phonology gap, the work goes on to describe the training of the model on a special speech corpus, and an evaluation of the naturalness of the F0 contour produced by the trained model through ABX and MOS perception experiments conducted with help of a specially built Neural Source Filter resynthesizer. Finally, an in-depth exploration of the phonology-to-phonetics mappings learned by the model is presented; the Layer-wise Relevance Propagation explainability method was used to perform an extensive quantitative analysis of the relevance of 1297 specially engineered linguistic input features and their groupings at various levels of abstraction for the specific contours of the fundamental frequency. The work ends with an in-depth interpretation of these results and a discussion of the advantages and disadvantages of the current method, and lists a number of potential future improvements. pl
dc.description.sponsorshipBadania przedstawione w pracy zostały cz˛e´sciowo zrealizowane w ramach grantu badawczego Harmonia nr UMO-2014/14/M/HS2/00631 przyznanego przez Narodowe Centrum Nauki.pl
dc.identifier.urihttps://hdl.handle.net/10593/26817
dc.language.isoengpl
dc.rightsinfo:eu-repo/semantics/openAccesspl
dc.subjectmodelowanie intonacjipl
dc.subjectsynteza mowypl
dc.subjectgłębokie uczeniepl
dc.subjectkonwolucyjne sieci neuronowepl
dc.subjectwytłumaczalna sztuczna inteligencjapl
dc.subjectintonation modelingpl
dc.subjectspeech synthesispl
dc.subjectdeep learningpl
dc.subjectconvolutional neural networkspl
dc.subjectexplainable artificial intelligencepl
dc.titleModelowanie polskiej intonacji dla statystyczno-parametrycznej syntezy mowypl
dc.title.alternativeModeling of Polish Intonation for Statistical-Parametric Speech Synthesispl
dc.typeDysertacjapl

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
rozprawa_tomasz_kuczmarski.pdf
Size:
29.41 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.47 KB
Format:
Item-specific license agreed upon to submission
Description: