帮助 关于我们

返回检索结果

基于词缀库的非监督维吾尔语词切分方法
Unsupervised Uyghur word segmentation method based on affix corpus

查看参考文献15篇

文摘 在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。
其他语种文摘 There is limited number of affixes in Uyghur and word formation has certain regularity.To improve the accuracy of segmentation algorithm,the common structure of Uyghur words is explored.An improved unsupervised segmentation method is presented, which segments words by rules with affix corpus,scores word segmentations with MAP model,and then selects the one with highest score as the right segmentation.The experimental result of 5000-words test show that the method is better accurate in Uyghur word segmentation.
来源 计算机工程与设计 ,2011,32(9):3191-3194 【扩展库】
关键词 维吾尔语 ; 粘着语 ; 词切分 ; 词缀库 ; 最大后验概率 ; 非监督
地址

中国科学院新疆理化技术研究所, 新疆, 乌鲁木齐, 830011

语种 中文
文献类型 研究性论文
ISSN 1000-7024
学科 自动化技术、计算机技术
基金 中国科学院知识创新工程西部行动计划项目
文献收藏号 CSCD:4328285

参考文献 共 15 共1页

1.  黄昌宁. 中文分词十年回顾. 中文信息学报,2007,21(3):8-19 被引 99    
2.  易坤琇. 维吾尔语语法,1998 被引 9    
3.  Creutz M. Unsupervised models for morpheme segmentation and morphology learning. ACM Transactions on Speechand Language Processing,2007,4(1):3-36 被引 6    
4.  古丽拉·阿东别克. 维吾尔语词切分方法初探. 中文信息学报,2004,18(6):61-65 被引 24    
5.  米热古丽·艾力. 基于词法分析的维吾尔语元音弱化算法研究. 中文信息学报,2008,22(4):43-47 被引 9    
6.  阿孜古丽·夏力甫. 维吾尔语动词附加语素的复杂特征研究. 中文信息学报,2008,22(3):105-109 被引 3    
7.  Ablimit M. artly supervised Uighur morphemesegmentation. Proc Oriental-COCOSDA Workshop,2008 被引 2    
8.  Batuer Aisha M S. A statistical method for Uyghur tokenization. IEEE International Conference on NaturalLanguage Processing and Knowledge Engineering,2009 被引 1    
9.  蔡荣英. 独立任务分配的贪婪随机自适应搜索过程. 计算机工程与设计,2006,27(21):4036-4038 被引 2    
10.  Creutz M. Inducing the morphological lexicon of anatural language from unannotated text. Proceedings of the International and Interdisciplinary Conferenceon Adaptive Knowledge Representation and Reasoning,2005 被引 1    
11.  Creutz M. Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0,2005 被引 3    
12.  Mikko Kurimo M C. Unsupervised segmentation of words into morphemes-challenge 2005 an introduction and evaluation report. Proc PASCAL ChallengeWorkshop on Unsupervised Segmentation of Words into Morphemes,2005 被引 1    
13.  Creutz M. Morfessor in the morpho challenge. Proceedings of the PASCAL Challenge Workshop onUnsupervised,2006 被引 1    
14.  Kurimo M. Overview of morpho challengein CLEF 2007. Working Notes of the CLEF 2007 Workshop,2007 被引 1    
15.  阿布力米提·阿不都热依木. 维吾尔文信息处理平台OpenType字体制作技术. 计算机工程与设计,2005,26(11):2891-2892 被引 3    
引证文献 6

1 张磊 维吾尔语数词类命名实体的识别与翻译 计算机应用与软件,2015,32(8):64-67,109
被引 2

2 董瑞 面向维吾尔文不平衡数据分类的特征选择方法 计算机工程与设计,2013,34(1):349-352
被引 2

显示所有6篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号