帮助 关于我们

返回检索结果

维吾尔语语音识别语料库中的OOV研究
Research on OOV problem in constructing Uyghur speech corpus

查看参考文献16篇

文摘 鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现。应用该算法进行电话语音库的文本转写,构建了维吾尔语的电话语音库。实验结果表明,该控制测试集OOV的方法能够有效地提高维吾尔语语音识别率。
其他语种文摘 A serious problem of OOV(out of vocabulary) is produced by abundant morphology of Uyghur which has created a large number of words.To quantify the effect on speech recognition brought by OOV,based on Python programming language,an algorithm that can control OOV rate of test sets in Uyghur speech corpus and an algorithm that can select optimal text are proposed.Using these algorithms,telephone speech database of Uyghur is conducted.The experimental results demonstrate that controlling OOV rate of test sets can increase rate of Uyghur speech recognition.
来源 计算机工程与设计 ,2012,33(2):772-776 【扩展库】
关键词 维吾尔语 ; 集外词 ; 语料库 ; 文本挑选 ; 语音识别
地址

中国科学院新疆理化技术研究所, 新疆, 乌鲁木齐, 830011

语种 中文
文献类型 研究性论文
ISSN 1000-7024
学科 电子技术、通信技术
基金 中国科学院知识创新工程西部行动计划项目
文献收藏号 CSCD:4452768

参考文献 共 16 共1页

1.  章森. 大规模语音语料库及其在TTS中应用的几个问题. 计算机学报,2010,33(4):687-696 被引 4    
2.  宗成庆. 统计自然语言处理,2008:48-62 被引 2    
3.  都菁. 基于论坛语料识别中文未登录词的方法. 计算机工程与设计,2010,31(3):630-633 被引 5    
4.  李永宏. 藏语连续语音语料库设计与实现. 计算机工程与应用,2010,46(13):233-235 被引 3    
5.  姑丽加玛丽·卖卖提艾力. 三音素模型的维吾尔语最佳文本选取算法. 计算机工程与应用,2009,45(18):242-244 被引 1    
6.  李艳红. 大规模语料库可用性评测方法. 计算机工程与应用,2009,45(16):134-137 被引 1    
7.  Mikko Kurimo. Unsuperivsed morpheme analysis evaluation by a comparison to a linguistic gold standard morpho challenge 2007. Working Notes of CLEF Workshop,2007 被引 1    
8.  Mathias Creutz. Indrction of the morphology of natural language:Unsupervised morpheme segmentation with application to automatic speech recognition [Ph D Thesis] Computer and Information Science, Report D13,2006 被引 1    
9.  Ebru Arisoy. Language modeling for automatic turkish broadcast news transcription,2007:2381-2384 被引 1    
10.  Creutz M. Morfessor in the morpho challenge. Proceedings of the PASCAL Challenge Workshop on Unsupervised,2006 被引 1    
11.  Kurimo M. Overview of morpho challenge in CLEF 2007. Working Notes of the CLEF Workshop,2007 被引 1    
12.  Mijit Ablimit. Partly supervised uighur morpheme segmentation. Proc Oriental-COCOSDA Workshop,2008 被引 2    
13.  张皖志. 基于声韵母基元的嵌入式中文语音合成系统. 信号处理,2005,21(4A):216-219 被引 1    
14.  王志明. 文本-视觉语音合成综述. 计算机研究与发展,2006,43(1):145-152 被引 3    
15.  Laila H. Evaluation of text and speech systems,2008 被引 1    
16.  Steven Bird. Natural language processing with python,2009 被引 2    
引证文献 3

1 努尔麦麦提·尤鲁瓦斯 基于音节的维吾尔语大词汇连续语音识别系统 清华大学学报. 自然科学版,2013,53(6):741-744
被引 3

2 努尔麦麦提·尤鲁瓦斯 维吾尔语大词汇语音识别系统识别单元研究 北京大学学报. 自然科学版,2014,50(1):149-152
被引 2

显示所有3篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号