帮助 关于我们

返回检索结果

维汉机器翻译未登录词识别研究
Research on out-of-vocabulary words'recognition in Uyghur-Chinese machine translation

查看参考文献15篇

文摘 针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。
其他语种文摘 Aimed at the phenomenon that there are so many out-of-vocabulary words in Uyghur-Chinese machine translation and the situation that the Uyghur language resources are very scarce, combined the features of Uyghur and string similarity algorithms, the paper presented an out-of-vocabulary word recognition model of Uyghur-Chinese machine translation which based on string similarity algorithms. With the help of phrase based model's phrase table, and the external dictionary, the model computed the maximum strings similarity between the out-of-vocabulary word and the Uyghur words' in phrase table and dictionary, got the translation corresponding to the Uyghur word. The experiments show that compared with the out-of-vocabulary words recognition method which based on word segmentation, this model is better retaining the words' information, and also improves the quality of the translation.
来源 计算机应用研究 ,2013,30(4):1112-1115 【核心库】
关键词 维汉机器翻译 ; 短语表 ; 字符串相似度算法 ; 未登录词 ; 词切分 ; 编辑距离
地址

中国科学院新疆理化技术研究所, 乌鲁木齐, 830011

语种 中文
文献类型 研究性论文
ISSN 1001-3695
学科 自动化技术、计算机技术
基金 中国科学院战略性先导科技专项 ;  中国科学院西部之光人才培养计划
文献收藏号 CSCD:4802617

参考文献 共 15 共1页

1.  Koehn P. Statistical phrase-based translation. Proc of Conference of the North American Chapter of Association for Computational Linguistics on Human Language,2003:48-54 被引 1    
2.  杨攀. 基于短语统计翻译的汉维机器翻译系统. 计算机应用,2009,29(7):2022-2025 被引 2    
3.  董兴华. 基于短语的汉维/维汉统计机器翻译. 计算机工程,2011,37(9):16-18 被引 10    
4.  Chiang D. Hierarchical phrase-based translation. Computational Linguistics,2007,33(2):201-228 被引 58    
5.  王斯日古楞. 基于短语的汉蒙统计机器翻译研究. 计算机工程与应用,2010,46(14):138-142 被引 2    
6.  侯宏旭. 一种基于短语的汉蒙统计机器翻译与调序模型. 高技术通讯,2009,19(5):475-479 被引 2    
7.  徐春. 汉维/维汉统计机器翻译中若干问题研究. 计算机工程与应用,2011,47(35):150-154 被引 3    
8.  阿依克孜·卡德尔. 面向自然语言信息处理的维吾尔语名词形态分析研究. 中文信息学报,2006,20(3):43-48 被引 12    
9.  Zhou Yu. A new framework to deal with OOV words in SLT system. International Journal of Advanced Intelligence,2011,3(2):269-285 被引 1    
10.  古丽拉·阿东别克. 维吾尔语词切分方法初探. 中文信息学报,2004,18(6):61-65 被引 24    
11.  Papineni K. BLEU: a method for automatic evaluation of machine translation. Proc of the 40th Annual Meeting on Association for Computational Liguistics,2002:311-318 被引 1    
12.  Koehn P. Moses: open source toolkit for statistical machine translation. Proc of the 45th Annual Meeting of the Association for Computational Linguistics (ACL) on Interactive Poster and Demonstration Sessions,2007:177-180 被引 1    
13.  Koehn P. Factored translation models. Proc of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2007:868-876 被引 1    
14.  Zens R. Efficient phrase-table representation for machine translation with applications to online MT and speech translation. Proc of Human Language Technology Conference:the North American Chapter of the Association for Computational Linguistics,2007:492-499 被引 1    
15.  Junczys-Dowmunt M. Phrasal rank-encoding: exploiting phrase redundancy and translational relations for phrase table compression. Prague Ballet in of Mathematical Linguistics,2012,98(1):63-74 被引 1    
引证文献 6

1 张力文 维吾尔语语音检索技术研究 中文信息学报,2014,28(5):182-186,197
被引 0 次

2 李响 泛化语言模型在汉维机器翻译中的应用 计算机应用研究,2014,31(10):2994-2997
被引 0 次

显示所有6篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号