基于声学模型共享的零资源韩语语音识别

TN912; 精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题.声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别.本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系.在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了 27.33％.同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式....

Celý popis

Uložené v:

Podrobná bibliografia
Vydané v:	数据采集与处理 Ročník 38; číslo 1; s. 93 - 100
Hlavní autori:	王皓宇, JEON Eunah, 张卫强, 李科, 黄宇凯
Médium:	Journal Article
Jazyk:	Chinese
Vydavateľské údaje:	清华大学电子工程系,北京国家信息科学技术研究中心,北京100084%北京海天瑞声科技股份有限公司,北京 100083 2023
Predmet:	语音识别零资源语音识别韩语语音识别
ISSN:	1004-9037
On-line prístup:	Získať plný text
Tagy:	Pridať tag Žiadne tagy, Buďte prvý, kto otaguje tento záznam!

Popis
Shrnutí:	TN912; 精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题.声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别.本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系.在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了 27.33％.同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式.
ISSN:	1004-9037
DOI:	10.16337/j.1004-9037.2023.01.007