Strojna tvorba hrvatskoga govora na temelju generiranja prirodnoga jezika iz strukturiranih podataka pametne okoline Interneta stvari

Uložené v:
Podrobná bibliografia
Názov: Strojna tvorba hrvatskoga govora na temelju generiranja prirodnoga jezika iz strukturiranih podataka pametne okoline Interneta stvari
Autori: Šoić, Renato
Prispievatelia: Vuković, Marin
Informácie o vydavateľovi: Sveučilište u Zagrebu. Fakultet elektrotehnike i računarstva. Zavod za telekomunikacije., 2025.
Rok vydania: 2025
Predmety: Computer science and technology. Computing. Data processing, TEHNIČKE ZNANOSTI. Računarstvo, pametne okoline, Internet of Things, Internet stvari, language transformers, generiranje prirodnog jezika, jezični transformatori, spoken notifications, natural language generation, strojna tvorba govora, govorne obavijesti, speech synthesis, TECHNICAL SCIENCES. Computing, smart environments, Računalna znanost i tehnologija. Računalstvo. Obrada podataka
Popis: Strojna tvorba govora znatno je napredovala u prošlom desetljeću zahvaljujući metodama dubokog učenja. Ostvareni rezultati omogućili su da sintetizirani govor postane kvalitetom usporediv s ljudskim govorom. Ovaj napredak doveo je do širenja područja primjene govornih tehnologija, uključujući njihovu integraciju u pametne okoline. Unatoč tome, za hrvatski jezik nije razvijeno rješenje koje bi pružalo usporedivu razinu kvalitete. U ovoj disertaciji predstavljen je sustav za strojnu tvorbu hrvatskoga govora temeljen na modelu VITS (engl. Variational Inference with Adversarial Learning for End-to-End Text-to-Speech). Sustav je evaluiran putem korisničkog ispitivanja te je pokazao vrlo dobre rezultate u pogledu kvalitete sintetiziranoga govora. Kako bi se razvijeni sustav primijenio u pametnim okolinama Interneta stvari, razvijen je i sustav za generiranje obavijesti na temelju podataka dostupnih u takvim okolinama. Početni pristup koristio je predefinirane predloške za generiranje obavijesti, što je rezultiralo morfološki nepravilnim obavijestima. Radi poboljšanja kvalitete generiranih obavijesti, implementiran je postupak ispravljanja morfoloških oblika temeljen na n-gramskom sustavu. Zbog ograničenja ovog pristupa, evaluiran je i postupak koji se oslanja na jezične transformatore, što je rezultiralo morfološki ispravnim obavijestima. Za potrebe validacije razvijen je prototip usluge za govorne obavijesti u pametnoj okolini Interneta stvari i provedeno korisničko ispitivanje koje je potvrdilo učinkovitost rješenja u praktičnim scenarijima.
Speech synthesis has significantly advanced over the past decade thanks to deep learning methods. The results achieved have enabled synthesized speech to reach a quality level comparable to human speech. This progress has led to the expansion of applications for speech technologies, including their integration into smart environments. Nevertheless, there is currently no solution for the Croatian language that provides a comparable level of quality. This dissertation presents a system for Croatian speech synthesis based on the VITS (Variational Inference with Adversarial Learning for End-to-End Text-to-Speech) model. The system was evaluated through user testing and demonstrated very good results in terms of synthesized speech quality. In order to apply the developed system in Internet of Things (IoT) smart environments, a system for generating notifications based on available data in such environments was also developed. The initial approach used predefined templates for generating notifications, which resulted in morphologically incorrect notifications. To improve the quality of generated notifications, a procedure for correcting morphological forms based on an n-gram system was implemented. Due to the limitations of this approach, a method relying on language transformers was also evaluated, resulting in morphologically correct notifications. For validation purposes, a prototype service for voice notifications in an IoT smart environment was developed, and user testing confirmed the solution’s effectiveness in practical scenarios.
Druh dokumentu: Doctoral thesis
Popis súboru: application/pdf
Jazyk: Croatian
Prístupová URL adresa: https://urn.nsk.hr/urn:nbn:hr:168:787958
https://repozitorij.fer.unizg.hr/islandora/object/fer:13484/datastream/PDF
https://repozitorij.fer.unizg.hr/islandora/object/fer:13484
Rights: URL: http://rightsstatements.org/vocab/InC/1.0/
Prístupové číslo: edsair.od......4131..103c0f1b39e3458f3a6f1775d3787d1b
Databáza: OpenAIRE
Popis
Abstrakt:Strojna tvorba govora znatno je napredovala u prošlom desetljeću zahvaljujući metodama dubokog učenja. Ostvareni rezultati omogućili su da sintetizirani govor postane kvalitetom usporediv s ljudskim govorom. Ovaj napredak doveo je do širenja područja primjene govornih tehnologija, uključujući njihovu integraciju u pametne okoline. Unatoč tome, za hrvatski jezik nije razvijeno rješenje koje bi pružalo usporedivu razinu kvalitete. U ovoj disertaciji predstavljen je sustav za strojnu tvorbu hrvatskoga govora temeljen na modelu VITS (engl. Variational Inference with Adversarial Learning for End-to-End Text-to-Speech). Sustav je evaluiran putem korisničkog ispitivanja te je pokazao vrlo dobre rezultate u pogledu kvalitete sintetiziranoga govora. Kako bi se razvijeni sustav primijenio u pametnim okolinama Interneta stvari, razvijen je i sustav za generiranje obavijesti na temelju podataka dostupnih u takvim okolinama. Početni pristup koristio je predefinirane predloške za generiranje obavijesti, što je rezultiralo morfološki nepravilnim obavijestima. Radi poboljšanja kvalitete generiranih obavijesti, implementiran je postupak ispravljanja morfoloških oblika temeljen na n-gramskom sustavu. Zbog ograničenja ovog pristupa, evaluiran je i postupak koji se oslanja na jezične transformatore, što je rezultiralo morfološki ispravnim obavijestima. Za potrebe validacije razvijen je prototip usluge za govorne obavijesti u pametnoj okolini Interneta stvari i provedeno korisničko ispitivanje koje je potvrdilo učinkovitost rješenja u praktičnim scenarijima.<br />Speech synthesis has significantly advanced over the past decade thanks to deep learning methods. The results achieved have enabled synthesized speech to reach a quality level comparable to human speech. This progress has led to the expansion of applications for speech technologies, including their integration into smart environments. Nevertheless, there is currently no solution for the Croatian language that provides a comparable level of quality. This dissertation presents a system for Croatian speech synthesis based on the VITS (Variational Inference with Adversarial Learning for End-to-End Text-to-Speech) model. The system was evaluated through user testing and demonstrated very good results in terms of synthesized speech quality. In order to apply the developed system in Internet of Things (IoT) smart environments, a system for generating notifications based on available data in such environments was also developed. The initial approach used predefined templates for generating notifications, which resulted in morphologically incorrect notifications. To improve the quality of generated notifications, a procedure for correcting morphological forms based on an n-gram system was implemented. Due to the limitations of this approach, a method relying on language transformers was also evaluated, resulting in morphologically correct notifications. For validation purposes, a prototype service for voice notifications in an IoT smart environment was developed, and user testing confirmed the solution’s effectiveness in practical scenarios.