帮助 关于我们

返回检索结果

基于机器翻译的维吾尔语形态分析研究
Research on machine translation based Uyghur morphological analysis

查看参考文献20篇

徐春 1 *   杨勇 2   蒋同海 1  
文摘 针对现有维吾尔语形态分析研究中存在的数据稀疏、模型构建复杂等问题,提出一种基于机器翻译的维吾尔语形态分析模型,即将维吾尔语词干提取(词性标注)任务中词干提取前(词性标注前)的句子看作是机器翻译模型训练过程中的源语言端,词干提取后(词性标注后)的句子看作是目标语言端;为了达到最佳的效果,加入了外部信息模块和联合校验模块以优化模型。实验结果表明,基于机器翻译框架的维吾尔语形态分析模型在词干提取、词性标注两个任务上优于其他模型。对比英语(词干提取、词性标注)、汉语(分词、词性标注)实验结果,提出的方法更适合维吾尔语形态分析。
其他语种文摘 To alleviate the data sparseness and reduce the complexity of models construction in Uyghur morphology analysis, it proposes a Statistical Machine Translation (SMT) based morphology analysis model, which considers the pre-stem words (pre-Part-Of-Speech (POS) tagging) in Uyghur word stemming (POS tagging) as the source part of SMT system, and the post-stemming words (POS tags) as the target part. To optimize the model, it uses dictionaries and joint validation in the model. Experimental results show that, the approach outperforms other systems in Uyghur word stemming and part-of-speech tagging. Compared with segmentation and POS tagging tasks in English and Chinese, the approach is more suitable for Uyghur.
来源 计算机工程与应用 ,2017,53(14):138-142,154 【扩展库】
DOI 10.3778/j.issn.1002-8331.1604-0119
关键词 维吾尔语形态分析 ; 基于机器翻译 ; 词干提取 ; 词性标注 ; 模型优化
地址

1. 中国科学院新疆理化技术研究所, 乌鲁木齐, 830011  

2. 新疆师范大学计算机科学技术学院, 乌鲁木齐, 830054

语种 中文
文献类型 研究性论文
ISSN 1002-8331
学科 自动化技术、计算机技术
基金 新疆维吾尔自治区高校科研计划项目 ;  国家教育部人文社会科学研究项目 ;  中国科学院西部之光人才培养计划
文献收藏号 CSCD:6056334

参考文献 共 20 共1页

1.  Nguyen N. Comparisons of sequence labeling algorithms and extensions. Proceedings of the 24th International Conference on Machine Learning,2007:681-688 被引 2    
2.  Eddy S R. What is a hidden Markov model?. Nature Biotechnology,2004,22(10):1315-1316 被引 7    
3.  Sutton C. An introduction to conditional random fields. Machine Learning,2011,4(4):267-373 被引 23    
4.  Phillips S J. Maximum entropy modeling of species geographic distributions. Ecological Modelling,2006,190(3):231-259 被引 929    
5.  Yamashita T. Language independent morphological analysis. Proceedings of the Sixth Conference on Applied Natural Language Processing,2000:232-238 被引 1    
6.  Xu J. Corpus-based stemming using co-occurrence of word variants. ACM Transactions on Information Systems (TOIS),1998,16(1):61-81 被引 2    
7.  张华平. 基于N-最短路径方法的中文词语粗分模型. 中文信息学报,2002,16(5):1-7 被引 30    
8.  洪铭材. 基于条件随机场(CRFs)的中文词性标注方法. 计算机科学,2006,33(10):148-151 被引 22    
9.  Goldwater S. A fully Bayesian approach to unsupervised part-of-speech tagging. Annual Meeting-Association for Computational Linguistics,2007 被引 1    
10.  卡德尔·阿依克孜. 面向自然语言信息处理的维吾尔语名词形态分析研究. 中文信息学报,2006,20(3):43-48 被引 1    
11.  艾山·吾买尔. 维吾尔语名词词干提取算法的研究. 第四届全国信息检索与内容安全学术会议论文集,2008:180-186 被引 1    
12.  Wang H. Uyghur stem-suffix segmentation and POS-tagging based on functional suffixes. 2013 International Conference on Asian Language Processing (IALP),2013:235-238 被引 1    
13.  帕提古力·依马木. 基于感知器算法的维吾尔语词性标注研究. 中文信息学报,2014,28(5):187-191 被引 2    
14.  Brown P F. The mathematics of statistical machine translation:parameter estimation. Computational Linguistics,1993,19(2):263-311 被引 93    
15.  Toutanova K. Feature-rich part-of-speech tagging with a cyclic dependency network. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume1,2003:173-180 被引 1    
16.  Yamada K. A syntax-based statistical translation model. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics,2001:523-530 被引 6    
17.  Bazzi I. Modelling out-of-vocabulary words for robust speech recognition,2002 被引 3    
18.  Koehn P. Moses:open source toolkit for statistical machine translation. Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions,2007:177-180 被引 17    
19.  Stolcke A. SRILM-an extensible language modeling toolkit. INTERSPEECH,2002 被引 1    
20.  Och F J. Minimum error rate training in statistical machine translation. Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume1,2003:160-167 被引 1    
引证文献 2

1 徐春 维吾尔语和韩语形态分析之模型构建 北京邮电大学学报,2018,41(1):88-94
被引 1

2 吾买尔江·买买提明 乌兹别克语词干提取算法的比较研究 中文信息学报,2020,34(1):45-50
被引 2

显示所有2篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号