基于词缀库的非监督维吾尔语词切分方法
Unsupervised Uyghur word segmentation method based on affix corpus
查看参考文献15篇
文摘
|
在维吾尔语中,词缀的数量有限且构词具有一定的规律性。为了提高维吾尔语词切分算法的性能,在一个词缀库的基础上,通过分析维吾尔语的基本构词规则,提出了一种改进的非监督维吾尔语词切分方法。该方法对词进行规则切分,采用MAP切分评价模型对规则切分打分,选取得分最高的规则切分作为该词的最终切分形式。在一个5000词的测试语料上进行了实验,实验结果表明,使用该方法进行维吾尔语词切分具有更高的准确率。 |
其他语种文摘
|
There is limited number of affixes in Uyghur and word formation has certain regularity.To improve the accuracy of segmentation algorithm,the common structure of Uyghur words is explored.An improved unsupervised segmentation method is presented, which segments words by rules with affix corpus,scores word segmentations with MAP model,and then selects the one with highest score as the right segmentation.The experimental result of 5000-words test show that the method is better accurate in Uyghur word segmentation. |
来源
|
计算机工程与设计
,2011,32(9):3191-3194 【扩展库】
|
关键词
|
维吾尔语
;
粘着语
;
词切分
;
词缀库
;
最大后验概率
;
非监督
|
地址
|
中国科学院新疆理化技术研究所, 新疆, 乌鲁木齐, 830011
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
1000-7024 |
学科
|
自动化技术、计算机技术 |
基金
|
中国科学院知识创新工程西部行动计划项目
|
文献收藏号
|
CSCD:4328285
|
参考文献 共
15
共1页
|
1.
黄昌宁. 中文分词十年回顾.
中文信息学报,2007,21(3):8-19
|
被引
99
次
|
|
|
|
2.
易坤琇.
维吾尔语语法,1998
|
被引
9
次
|
|
|
|
3.
Creutz M. Unsupervised models for morpheme segmentation and morphology learning.
ACM Transactions on Speechand Language Processing,2007,4(1):3-36
|
被引
6
次
|
|
|
|
4.
古丽拉·阿东别克. 维吾尔语词切分方法初探.
中文信息学报,2004,18(6):61-65
|
被引
24
次
|
|
|
|
5.
米热古丽·艾力. 基于词法分析的维吾尔语元音弱化算法研究.
中文信息学报,2008,22(4):43-47
|
被引
9
次
|
|
|
|
6.
阿孜古丽·夏力甫. 维吾尔语动词附加语素的复杂特征研究.
中文信息学报,2008,22(3):105-109
|
被引
3
次
|
|
|
|
7.
Ablimit M. artly supervised Uighur morphemesegmentation.
Proc Oriental-COCOSDA Workshop,2008
|
被引
2
次
|
|
|
|
8.
Batuer Aisha M S. A statistical method for Uyghur tokenization.
IEEE International Conference on NaturalLanguage Processing and Knowledge Engineering,2009
|
被引
1
次
|
|
|
|
9.
蔡荣英. 独立任务分配的贪婪随机自适应搜索过程.
计算机工程与设计,2006,27(21):4036-4038
|
被引
2
次
|
|
|
|
10.
Creutz M. Inducing the morphological lexicon of anatural language from unannotated text.
Proceedings of the International and Interdisciplinary Conferenceon Adaptive Knowledge Representation and Reasoning,2005
|
被引
1
次
|
|
|
|
11.
Creutz M.
Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0,2005
|
被引
3
次
|
|
|
|
12.
Mikko Kurimo M C. Unsupervised segmentation of words into morphemes-challenge 2005 an introduction and evaluation report.
Proc PASCAL ChallengeWorkshop on Unsupervised Segmentation of Words into Morphemes,2005
|
被引
1
次
|
|
|
|
13.
Creutz M. Morfessor in the morpho challenge.
Proceedings of the PASCAL Challenge Workshop onUnsupervised,2006
|
被引
1
次
|
|
|
|
14.
Kurimo M. Overview of morpho challengein CLEF 2007.
Working Notes of the CLEF 2007 Workshop,2007
|
被引
1
次
|
|
|
|
15.
阿布力米提·阿不都热依木. 维吾尔文信息处理平台OpenType字体制作技术.
计算机工程与设计,2005,26(11):2891-2892
|
被引
3
次
|
|
|
|
|