帮助 关于我们

返回检索结果

基于字符串相似度的维吾尔语中汉语借词识别
Recognition of Chinese Loan Words in Uyghur Based on String Similarity

查看参考文献18篇

米成刚 1   杨雅婷 1   周喜 1   李晓 1   杨明忠 2  
文摘 维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。
其他语种文摘 There are many Out-Of-Vocabulary words in Uyghur-Chinese machine translation, a large part of them are loan words (including person names, place names, et.al). This paper presents a novel method that recognition the Chinese loan words in Uyghur according to the feature that one loan word pronounce similar with its original word. This method training the existing corpus first, and getting the Uyghur Latin rules that use to recognize Chinese loan word in Uyghur; this paper Latin the Uyghur words according to the rules, Romanization of Chinese words, these transform the sounds similarity to strings similarity which is easy to quantification; proposed three models: Position-related Minimum Edit Distance model, Weighted Common Subsequence model and the fusion model that fused above two with parameters. The experimental results show that the fusion model considering strings' global similarity and local similarity, so it gets the best recognition results.
来源 中文信息学报 ,2013,27(5):173-178,190 【核心库】
关键词 借词 ; 未登录词 ; 发音相似度 ; 字符串相似度
地址

1. 中国科学院新疆理化技术研究所, 乌鲁木齐, 830011  

2. 哈密地区电子政务办公室, 新疆, 哈密, 839000

语种 中文
文献类型 研究性论文
ISSN 1003-0077
学科 自动化技术、计算机技术
基金 中国科学院战略性先导科技专项 ;  中国科学院西部之光人才培养计划 ;  中国科学院知识创新工程西部行动计划项目
文献收藏号 CSCD:4969152

参考文献 共 18 共1页

1.  Chris Manning. Foundations of Statistical Natural Language Processing,1999 被引 25    
2.  Huang Chungchi. Using Sublexical Translations to Handle the OOV Problem in Machine Translation. ACM Transactions on Asian Language Information Processing,2011,10(3):16 被引 1    
3.  Hall-Lew Lauren Asia. English Loanwords in Mandarin Chinese,2002 被引 1    
4.  Gillian Kay. English loanwords in Japanese. World Englishes,1995,14(1):67-76 被引 1    
5.  潘子助. 试谈汉语中的英语借词. 湖北函授大学学报,2011,24(7):110-111 被引 1    
6.  Zhu Kui. On Chinese-English Language Contact through Loanwords. English Language and Literature Studies,2011,1(2):100-105 被引 1    
7.  陈燕. 汉维语外来词借入方法对比研究. 喀什师范学院学报,2011,32(2):51-55 被引 1    
8.  郑燕. 借词对维吾尔语词汇的影响. 湖北第二师范学院学报,2011,28(1):37-39 被引 1    
9.  陈世明. 维吾尔语汉语借词新探. 西北民族研究,2007,1:5 被引 1    
10.  周磊. 乌鲁木齐方言借词研究. 方言,2004,4:347-355 被引 1    
11.  李佳正. 维吾尔语中汉族人名的识别及翻译. 中文信息学报,2011,25(4):82-87 被引 7    
12.  Philipp Koehn. Statistical Phrase-Based Translation. Proceeding NAACL '03 Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language,2003:48-54 被引 1    
13.  Brown Peter F. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics,1993,19(2):263-311 被引 5    
14.  Liu Yang. Log-linear Models for Word Alignment. Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics,2005:459-466 被引 3    
15.  Chris Dyer. Unsupervised Word Alignment with Arbitrary Features. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics,2011:409-419 被引 1    
16.  Moore Robert C. Improving IBM Word-Alignment Model1. Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics,2004:519-526 被引 1    
17.  阿依克孜·卡德尔. 面向自然语言信息处理的维吾尔语名词形态分析研究. 中文信息学报,2006,20(3):43-48 被引 12    
18.  Mehryar Mohri. Weighted Automata in Text and Speech Processing. Proceedings of 12th European Conference on Artificial Intelligence,1996:5 被引 1    
引证文献 1

1 塔什甫拉提·尼扎木丁 统计与规则相结合的维吾尔语人名识别方法 自动化学报,2017,43(4):653-664
被引 3

显示所有1篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号