|
汉语词语语义相似度计算研究
Study on Chinese Words Semantic Similarity Computation
查看参考文献8篇
文摘
|
汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。 |
其他语种文摘
|
Similarity computation of Chinese words is a key problem in Chinese information processing. This paper proposes a new method on similarity computation which is based on Hownet, geared to semantic and could be expanded. The new method defines a similarity computation formula among Hownet's sememes according to information theory, finds a way out of the difficulty that OOV words cannot participate in semantic computation by implementing concept segmentation and automatic semantic production to OOV words, and realizes the similarity computation on the semantic level among arbitrary words finally. Experimental result of CILIN indicates that the accuracy rate of the new method is nearly 15% higher than present ones. |
来源
|
计算机工程
,2007,33(6):191-194 【核心库】
|
关键词
|
词语相似度
;
知网
;
概念
;
义原
|
地址
|
中国人民大学信息资源管理学院, 北京, 100872
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
1000-3428 |
学科
|
自动化技术、计算机技术 |
基金
|
中国人民大学科学研究青年基金资助项目
;
中国人民大学数据工程与知识工程教育部重点实验室基金
|
文献收藏号
|
CSCD:2719682
|
参考文献 共
8
共1页
|
1.
刘亚军. 一种基于加权语义相似度模型的自动问答系统.
东南大学学报,2004,34(5):609-612
|
CSCD被引
8
次
|
|
|
|
2.
李有梅. 基于词义的关键词抽取方法研究.
情报理论与实践,2000,23(2):81-83
|
CSCD被引
2
次
|
|
|
|
3.
朱毅华. 计算机识别汉语同义词的两种算法比较和测评.
中国图书馆学报,2002,28(140):82-85
|
CSCD被引
3
次
|
|
|
|
4.
刘群.
第3届中文词汇语义学研讨会论文集,2002
|
CSCD被引
1
次
|
|
|
|
5.
夏天. 基于ALICE的汉语自然语言接口.
北京理工大学学报,2004,24(10):885-889
|
CSCD被引
2
次
|
|
|
|
6.
McEnery T. The Lancaster Corpus of Mandarin Chinese[EB/OL].
http://www ling lancs ac uk/corplang/lcmc,2004
|
CSCD被引
1
次
|
|
|
|
7.
董振东. 知网.
http://www.keenage.com/,2002
|
CSCD被引
2
次
|
|
|
|
8.
Dekang L. An Information-theoretic Definition of Similarity.
Proceedings of the 15th International Conference on Machine Learning,1998:296-304
|
CSCD被引
1
次
|
|
|
|
|
|