维吾尔语语音识别语料库中的OOV研究
Research on OOV problem in constructing Uyghur speech corpus
查看参考文献16篇
文摘
|
鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现。应用该算法进行电话语音库的文本转写,构建了维吾尔语的电话语音库。实验结果表明,该控制测试集OOV的方法能够有效地提高维吾尔语语音识别率。 |
其他语种文摘
|
A serious problem of OOV(out of vocabulary) is produced by abundant morphology of Uyghur which has created a large number of words.To quantify the effect on speech recognition brought by OOV,based on Python programming language,an algorithm that can control OOV rate of test sets in Uyghur speech corpus and an algorithm that can select optimal text are proposed.Using these algorithms,telephone speech database of Uyghur is conducted.The experimental results demonstrate that controlling OOV rate of test sets can increase rate of Uyghur speech recognition. |
来源
|
计算机工程与设计
,2012,33(2):772-776 【扩展库】
|
关键词
|
维吾尔语
;
集外词
;
语料库
;
文本挑选
;
语音识别
|
地址
|
中国科学院新疆理化技术研究所, 新疆, 乌鲁木齐, 830011
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
1000-7024 |
学科
|
电子技术、通信技术 |
基金
|
中国科学院知识创新工程西部行动计划项目
|
文献收藏号
|
CSCD:4452768
|
参考文献 共
16
共1页
|
1.
章森. 大规模语音语料库及其在TTS中应用的几个问题.
计算机学报,2010,33(4):687-696
|
被引
4
次
|
|
|
|
2.
宗成庆.
统计自然语言处理,2008:48-62
|
被引
2
次
|
|
|
|
3.
都菁. 基于论坛语料识别中文未登录词的方法.
计算机工程与设计,2010,31(3):630-633
|
被引
5
次
|
|
|
|
4.
李永宏. 藏语连续语音语料库设计与实现.
计算机工程与应用,2010,46(13):233-235
|
被引
3
次
|
|
|
|
5.
姑丽加玛丽·卖卖提艾力. 三音素模型的维吾尔语最佳文本选取算法.
计算机工程与应用,2009,45(18):242-244
|
被引
1
次
|
|
|
|
6.
李艳红. 大规模语料库可用性评测方法.
计算机工程与应用,2009,45(16):134-137
|
被引
1
次
|
|
|
|
7.
Mikko Kurimo. Unsuperivsed morpheme analysis evaluation by a comparison to a linguistic gold standard morpho challenge 2007.
Working Notes of CLEF Workshop,2007
|
被引
1
次
|
|
|
|
8.
Mathias Creutz.
Indrction of the morphology of natural language:Unsupervised morpheme segmentation with application to automatic speech recognition [Ph D Thesis] Computer and Information Science, Report D13,2006
|
被引
1
次
|
|
|
|
9.
Ebru Arisoy.
Language modeling for automatic turkish broadcast news transcription,2007:2381-2384
|
被引
1
次
|
|
|
|
10.
Creutz M. Morfessor in the morpho challenge.
Proceedings of the PASCAL Challenge Workshop on Unsupervised,2006
|
被引
1
次
|
|
|
|
11.
Kurimo M. Overview of morpho challenge in CLEF 2007.
Working Notes of the CLEF Workshop,2007
|
被引
1
次
|
|
|
|
12.
Mijit Ablimit. Partly supervised uighur morpheme segmentation.
Proc Oriental-COCOSDA Workshop,2008
|
被引
2
次
|
|
|
|
13.
张皖志. 基于声韵母基元的嵌入式中文语音合成系统.
信号处理,2005,21(4A):216-219
|
被引
1
次
|
|
|
|
14.
王志明. 文本-视觉语音合成综述.
计算机研究与发展,2006,43(1):145-152
|
被引
3
次
|
|
|
|
15.
Laila H.
Evaluation of text and speech systems,2008
|
被引
1
次
|
|
|
|
16.
Steven Bird.
Natural language processing with python,2009
|
被引
2
次
|
|
|
|
|