Analiza błędów wymowy Hiszpanów uczących się języka polskiego dla potrzeb komputerowych systemów nauczania wymowy
Loading...
Date
2012-06-11T12:20:12Z
Authors
Advisor
Editor
Journal Title
Journal ISSN
Volume Title
Publisher
Title alternative
An analysis of pronunciation errors in Spanish learners of Polish for purposes of Computer-Assisted Pronunciation Training systems
Abstract
Rozprawa pt. „An analysis of pronunciation errors in Spanish learners of Polish for purposes of Computer-Assisted Pronunciation Training systems” („Analiza błędów wymowy Hiszpanów uczących się języka polskiego dla potrzeb komputerowych systemów nauczania wymowy”) zawiera opis badań, których celem było stworzenie inwentarza najbardziej systematycznych segmentalnych błędów wymowy popełnianych przez Hiszpanów uczących się języka polskiego dla potrzeb wykorzystania wyników przy opracowaniu komputerowego systemu nauczania wymowy (CAPT) skierowanego do tej konkretnej grupy odbiorców. Komputerowe nauczanie wymowy ma wiele zalet, jednakże przy obecnym rozwoju technologii stworzenie skutecznego systemu do ćwiczenia wymowy wymaga przeprowadzenia nagrań oraz szczegółowej analizy mowy nienatywnej. Jako że jest to przedsięwzięcie niezwykle czasochłonne i kosztowne, instytucje komercyjne mogą nie być zainteresowane opracowywaniem tego typu programów dla rzadziej używanych języków. Obecnie dysponujemy ograniczoną wiedzą na temat błędów wymowy typowych dla konkretnych par językowych, szczególnie gdy w grę wchodzą języki inne niż język angielski. Badania w zakresie interferencji fonetycznej i fonologicznej biorące pod uwagę jęz. polski są znikome, zwłaszcza dla jęz. polskiego jako obcego (L2). Rozprawa „An analysis of pronunciation errors in Spanish learners of Polish for purposes of Computer-Assisted Pronunciation Training systems” ma na celu wypełnienie tej luki.
Rozdział pierwszy zarysowuje ramy teoretyczne dla badań opisanych w rozprawie. W rozdziale tym omówiono najważniejsze wyniki i twierdzenia w dziedzinie badań nad nabywaniem i nauczaniem jęz. obcego oraz w dziedzinie badań nad komputerowym nauczaniem wymowy, biorąc pod uwagę zarówno zalety jak i wady systemów CAPT. Wstęp teoretyczny stanowił podstawę do sformułowania podstawowych założeń pracy, na podstawie których opracowano metodologię zastosowaną w opisanych w rozprawie badaniach. Głównym założeniem przyjętym w analizie była teza mówiąca o tym iż większość błędów wymowy w L2 spowodowana jest interferencją z językiem ojczystym (L1) osoby uczącej się, wobec czego porównując systemy fonetyczne i fonologiczne obu języków można przewidzieć które fonemy i jakie konteksty w L2 mogą być błędnie realizowane przez uczących się. Konsekwencją przyjęcia takiego założenia było przeprowadzenie szczegółowej analizy porównawczej systemu fonetycznego i fonologicznego jęz. polskiego oraz hiszpańskiego, opisanej w rozdziale drugim rozprawy. Na podstawie wcześniejszej analizy teoretycznej w rozdziale trzecim zaproponowano własny inwentarz fonemów i alofonów obu języków, który następnie wykorzystano do analizy i anotacji błędów znalezionych w korpusie oraz do sformułowania hipotez dotyczących przewidywanych błędów wymowy. W oparciu o hipotezy utworzono materiał językowy w postaci 108 zdań, zawierających potencjalnie problematyczne fonemy, kombinacje fonemów i konteksty. Przyjęcie tej metody miało na celu umożliwienie zebrania reprezentacyjnej próbki najbardziej typowych błędów wymowy popełnianych przez Hiszpanów oraz sprawdzenia postawionych przez autorkę hipotez, tak aby można było określić które różnice występujące między jęz. polskim a hiszpańskim rzeczywiście przykładają się na błędy wymowy. Założono bowiem, zgodnie z przeważającym obecnie podejściem wśród badaczy zajmujących się nabywaniem L2, że nie wszystkie hipotezy znajdą faktyczne potwierdzenie i że nie wszyscy uczestnicy badań popełnią przewidywane błędy. Opis metodologii (procedury nagrań, ich przetwarzania, transkrypcji i anotacji) zawarto w rozdziale trzecim rozprawy.
Rozdział czwarty przedstawia szczegółowy opis wyników jakościowej i ilościowej analizy czytanej mowy nienatywnej pochodzącej od ośmiorga Hiszpanów posługujących się jęz. polskim w stopniu (średnio)zaawansowanym. Łącznie przeanalizowano 864 zdania, zawierające 31148 jednostek segmentalnych. Uczestnicy badań błędnie zrealizowali 4143 (13.3%) segmentów, zastępując jeden segment innym (substytucja), bądź go omijając (elizja). Łącznie z 263 przypadkami wstawienia (epentezy), w korpusie oznaczono 4406 błędów wymowy na poziomie segmentalnym. Zdecydowanie najczęstszym typem błędu (86.3%) była substytucja. Ominięcia stanowiły jedynie 10.6% wszystkich błędów, a wstawienia zaledwie 6%. Wyniki zdają się potwierdzać słuszność założeń, a w konsekwencji przyjętej w badaniach metodologii. W ujęciu ogólnym, większość hipotez sformułowanych na podstawie teoretycznej analizy porównawczej jęz. hiszpańskiego i polskiego znalazła potwierdzenie w materiale badawczym. Dodatkowo, większość z powtarzających się w korpusie błędów została przewidziana, co potwierdza tezę, iż można przewidzieć większość błędów wymowy w L2 porównując system fonetyczny i fonologiczny jęz. ojczystego osoby uczącej się i jęz. obcego. Z drugiej strony nie wszystkie przewidywania okazały się słuszne, a uczestnicy badań znacznie różnili się między sobą jeśli chodzi o liczbę lub typ popełnianych błędów. Co więcej, nie wszystkie błędy znalezione w korpusie przewidziano. Obserwacje te można odczytywać jako potwierdzenie tezy mówiącej o tym, że niektóre błędy wymowy mogą nie być warunkowane językiem ojczystym uczącego się, bądź też że niektóre błędy łatwiej wyeliminować, w związku z czym u osób reprezentujących zaawansowany poziom w jęz. obcym błędy te mogą już nie występować. Przede wszystkim, jednak, wyniki potwierdzają potrzebę przeprowadzania badań empirycznych w celu weryfikacji założeń teoretycznych dotyczących typowych błędów wymowy dla poszczególnych par językowych.
Badania opisane w rozprawie pozwoliły na stworzenie listy najbardziej problematycznych fonemów i kontekstów z punktu widzenia Hiszpanów uczących się języka polskiego oraz na określenie które z błędów mogą utrudniać komunikację bądź przyczyniać się do postrzegania polskiej mowy nienatywnej przez rodzimych użytkowników jęz. polskiego jako silnie akcentowanej. Na tej podstawie sformułowano sugestie odnośnie do błędów zasługujących na największą uwagę w nauczaniu wymowy. Sugestie te mogą się okazać przydatne przy opracowywaniu optymalnego programu nauczania wymowy jęz. polskiego z myślą o tej konkretnej grupy językowej. Jednakże należy podkreślić, iż potrzebne są dalsze badania percepcyjne z udziałem rodzimych użytkowników jęz. polskiego, aby ustalić, które z błędów uznanych w pracy za zasługujące na największą uwagę w nauczaniu wymowy najbardziej przyczyniają się do postrzegania mowy jako silnie akcentowanej i które są najbardziej szkodliwe z punktu widzenia zrozumiałości komunikatu. Ponadto zaleca się również analizę mowy nienatywnej Hiszpanów posługujących się jęz. polskim pod kątem suprasegmentalnych błędów wymowy, jako iż coraz częściej uznaje się, że nie tylko segmentalne ale również suprasegmentalne błędy mogą uniemożliwiać zrozumienie komunikatu oraz odpowiadać za silny „akcent”. Aby lepiej zrozumieć proces nabywania wymowy w jęz. obcym, warto byłoby zbadać również jakie błędy popełniają Hiszpanie mniej zaawansowani w jęz. polskim. Przede wszystkim, jednak, ze względu na to iż głównym celem rozprawy było zastosowanie wyników przy opracowaniu systemu CAPT opartego na automatycznym rozpoznawaniu mowy oraz automatycznej detekcji błędów, należałoby sprawdzić czy obecne systemy mogą w sposób wiarygodny wykryć błędy uznane w badaniach za najbardziej systematyczne i szkodliwe.
The dissertation “An analysis of pronunciation errors in Spanish learners of Polish for purposes of Computer-Assisted Pronunciation Training systems” reports on a study which aimed at establishing an inventory of the most systematic segmental pronunciation errors made by Spanish learners of Polish with a view to using the results for designing a Computer-Assisted Pronunciation Training (CAPT) system targeted at this specific group of learners. CAPT has a lot to offer but at the current stage of technology development, creation of an effective pronunciation tutoring system requires collection and detailed analysis of non-native speech. This is a costly and time-consuming undertaking and, therefore, commercial organizations may not be interested in developing such systems for lesser-spoken languages. At present very little information is available as to what errors are most typical of specific language pairs, especially if they do not include English. Studies into phonetic and phonological interference involving Polish (particularly as a target language) are almost non-existent. The dissertation aims at filling this gap. In the first chapter the theoretical framework of the study is provided, which includes a review of the main findings and claims of the research into second language (L2) pronunciation acquisition and teaching as well as a discussion on the state of the art in CAPT, its strengths and limitations. The theoretical introduction is followed by a formulation of the main assumptions that guided the development of methodology employed in the study. The principal assumption of the study has been that most pronunciation errors result from interference from the learners’ L1 and, thus, it is possible to anticipate which phonemes and contexts in the L2 might result in mispronunciations by comparing learners’ L1 and the L2. Consequently, a detailed comparison of phonetic and phonological systems of Spanish and Polish was conducted (Chapter 2), followed by an establishment of the final inventory of phonemes and allophones used for error analysis and annotation and a formulation of mispronunciation hypotheses (Chapter 3). On the basis of the latter 108 Polish sentences were prepared, containing potentially problematic phonemes, combinations of phonemes and contexts. This method was to enable collection of a fairly representative sample of the most typical pronunciation errors made by native speakers of Peninsular Spanish (the Spanish of Spain). At the same time, it was to allow the author to test the mispronunciation hypotheses and, thus, to determine which of the differences between Spanish and Polish actually resulted in pronunciation errors since, in agreement with the approach currently prevailing among researchers investigating L2-acquisition processes, it was assumed that not all of the expected errors would occur in the non-native speech collected in the study and not all of the recorded mispronunciations would be committed by all participants. The methodology (procedures of the recordings, post-processing of the recordings, transcription and annotation of the corpus) is described in Chapter 3 of the dissertation. Chapter 4 provides a detailed description of the findings based on the quantitative and qualitative analysis of non-native read speech coming from eight relatively experienced learners of Polish with Spanish as their L1. Altogether, 864 Polish sentences containing 31148 target segments were analyzed. The participants mispronounced 4143 (13.3%) segments, either by substitution or deletion. Adding 263 insertions, altogether 4406 pronunciation errors were found in the corpus. Substitution was by far the most common type of error, comprising 83.4% of all mispronunciations. In comparison, deletions comprised 10.6% of all errors, and insertions only 6%. The findings seem to confirm the validity of the assumptions and, hence, of the applied method. By way of summary, most of the mispronunciation hypotheses formulated on the basis of the theoretical comparison between Spanish and Polish found support in the empirical data and most of the recurrent errors in the non native speech by Spanish learners of Polish had been anticipated, which substantiates the claim that it is possible to successfully anticipate most L2 errors by comparing learners’ mother tongue and the target language. At the same time, not all of the predictions proved correct and the participants usually varied considerably in terms of the number and/or type of errors they committed. Likewise, some errors found in the corpus had not been anticipated, all of which might be viewed as confirmation of the hypotheses whereby some errors might be motivated by factors other than interference from the L1 and certain problems might be more easily eliminated than others and, thus, be absent from the speech of more advanced L2 learners. Above all, however, the findings confirm the need for empirical verification of theoretical assumptions concerning the most typical pronunciation errors in specific language pairs. The study conducted in the scope of the dissertation made it possible to determine which Polish phonemes and contexts are most problematic for advanced learners of Polish with Spanish as their L1 and which of the resulting mispronunciations have a potential to hamper communication or to contribute to the impression of foreign-accentedness in listeners. On this basis, suggestions were formulated for devising an optimal pronunciation training curriculum to be targeted at this particular group of learners. Yet, it is strongly advised that a follow-up study is conducted with the participation of native speakers of Polish in order to determine which of the pronunciation errors selected in the current study as deserving greatest priority in pronunciation training contribute most to the perception of non-native speech as heavily accented and which are most detrimental to intelligibility. Further research should also be conducted on suprasegmental errors made by Spanish learners of Polish, as it is an increasingly common view that not only segmental but also prosodic deviations from native pronunciation contribute to the perception of L2 speech as foreign-accented and affect intelligibility. Last but not least, an analysis of pronunciation errors made by less advanced learners of Polish seems worth pursuing in order to achieve a better understanding of the L2 pronunciation learning process. Yet, given the aim of the thesis (i.e. a possible implementation of the results into a CAPT system), it seems essential to conduct additional research to test which of the errors addressed in the suggested curriculum can actually be reliably detected by a recognizer.
The dissertation “An analysis of pronunciation errors in Spanish learners of Polish for purposes of Computer-Assisted Pronunciation Training systems” reports on a study which aimed at establishing an inventory of the most systematic segmental pronunciation errors made by Spanish learners of Polish with a view to using the results for designing a Computer-Assisted Pronunciation Training (CAPT) system targeted at this specific group of learners. CAPT has a lot to offer but at the current stage of technology development, creation of an effective pronunciation tutoring system requires collection and detailed analysis of non-native speech. This is a costly and time-consuming undertaking and, therefore, commercial organizations may not be interested in developing such systems for lesser-spoken languages. At present very little information is available as to what errors are most typical of specific language pairs, especially if they do not include English. Studies into phonetic and phonological interference involving Polish (particularly as a target language) are almost non-existent. The dissertation aims at filling this gap. In the first chapter the theoretical framework of the study is provided, which includes a review of the main findings and claims of the research into second language (L2) pronunciation acquisition and teaching as well as a discussion on the state of the art in CAPT, its strengths and limitations. The theoretical introduction is followed by a formulation of the main assumptions that guided the development of methodology employed in the study. The principal assumption of the study has been that most pronunciation errors result from interference from the learners’ L1 and, thus, it is possible to anticipate which phonemes and contexts in the L2 might result in mispronunciations by comparing learners’ L1 and the L2. Consequently, a detailed comparison of phonetic and phonological systems of Spanish and Polish was conducted (Chapter 2), followed by an establishment of the final inventory of phonemes and allophones used for error analysis and annotation and a formulation of mispronunciation hypotheses (Chapter 3). On the basis of the latter 108 Polish sentences were prepared, containing potentially problematic phonemes, combinations of phonemes and contexts. This method was to enable collection of a fairly representative sample of the most typical pronunciation errors made by native speakers of Peninsular Spanish (the Spanish of Spain). At the same time, it was to allow the author to test the mispronunciation hypotheses and, thus, to determine which of the differences between Spanish and Polish actually resulted in pronunciation errors since, in agreement with the approach currently prevailing among researchers investigating L2-acquisition processes, it was assumed that not all of the expected errors would occur in the non-native speech collected in the study and not all of the recorded mispronunciations would be committed by all participants. The methodology (procedures of the recordings, post-processing of the recordings, transcription and annotation of the corpus) is described in Chapter 3 of the dissertation. Chapter 4 provides a detailed description of the findings based on the quantitative and qualitative analysis of non-native read speech coming from eight relatively experienced learners of Polish with Spanish as their L1. Altogether, 864 Polish sentences containing 31148 target segments were analyzed. The participants mispronounced 4143 (13.3%) segments, either by substitution or deletion. Adding 263 insertions, altogether 4406 pronunciation errors were found in the corpus. Substitution was by far the most common type of error, comprising 83.4% of all mispronunciations. In comparison, deletions comprised 10.6% of all errors, and insertions only 6%. The findings seem to confirm the validity of the assumptions and, hence, of the applied method. By way of summary, most of the mispronunciation hypotheses formulated on the basis of the theoretical comparison between Spanish and Polish found support in the empirical data and most of the recurrent errors in the non native speech by Spanish learners of Polish had been anticipated, which substantiates the claim that it is possible to successfully anticipate most L2 errors by comparing learners’ mother tongue and the target language. At the same time, not all of the predictions proved correct and the participants usually varied considerably in terms of the number and/or type of errors they committed. Likewise, some errors found in the corpus had not been anticipated, all of which might be viewed as confirmation of the hypotheses whereby some errors might be motivated by factors other than interference from the L1 and certain problems might be more easily eliminated than others and, thus, be absent from the speech of more advanced L2 learners. Above all, however, the findings confirm the need for empirical verification of theoretical assumptions concerning the most typical pronunciation errors in specific language pairs. The study conducted in the scope of the dissertation made it possible to determine which Polish phonemes and contexts are most problematic for advanced learners of Polish with Spanish as their L1 and which of the resulting mispronunciations have a potential to hamper communication or to contribute to the impression of foreign-accentedness in listeners. On this basis, suggestions were formulated for devising an optimal pronunciation training curriculum to be targeted at this particular group of learners. Yet, it is strongly advised that a follow-up study is conducted with the participation of native speakers of Polish in order to determine which of the pronunciation errors selected in the current study as deserving greatest priority in pronunciation training contribute most to the perception of non-native speech as heavily accented and which are most detrimental to intelligibility. Further research should also be conducted on suprasegmental errors made by Spanish learners of Polish, as it is an increasingly common view that not only segmental but also prosodic deviations from native pronunciation contribute to the perception of L2 speech as foreign-accented and affect intelligibility. Last but not least, an analysis of pronunciation errors made by less advanced learners of Polish seems worth pursuing in order to achieve a better understanding of the L2 pronunciation learning process. Yet, given the aim of the thesis (i.e. a possible implementation of the results into a CAPT system), it seems essential to conduct additional research to test which of the errors addressed in the suggested curriculum can actually be reliably detected by a recognizer.
Description
Wydział Neofilologii: Instytut Językoznawstwa
Sponsor
Keywords
Korpus mowy nienatywnej, Non-native speech corpus, Interferencja, Interference, Segmentalne błędy wymowy, Segmental pronunciation errors, CAPT