帮助 关于我们

返回检索结果

基于句子相关度的文本自动分类
Text classification based on sentence correlation

查看参考文献9篇

张友华 1   熊范纶 2  
文摘 提出一种基于句子相关度的文本自动分类模型(TCSC).该模型利用训练样本增量式地自动更新类别语料库,根据句子的位置权值和语料权值计算句子类别相关度,获得用于文本分类的句子相关度矩阵,通过该矩阵实现文档分类.该模型避免了分类阶段待分类文本特别是中文文本的分词,模糊了词的多义问题,且在文本分类的实验中能够达到86%以上的查全率和查准率;随着语料库的不断训练和调整,分类性能还可以进一步提高,具有简单实现的特点.
其他语种文摘 A text category model based on sentence correlation(TCSC) was presented , which incrementally updates category corpus with the training documents automatically. Then, category correlation was obtained by means of sentence position weight and corpus item weight to achieve correlation matrix for text classification. This model avoids the problem of word segmentation in Chinese documents and lowers the effect of words with multiple meanings in the phase of classification. Experimental results show that the recall and precision of this model reached of over 86%, and can be improved by updating corpus. This model can also be implemented easily in programming.
来源 中国科学技术大学学报 ,2006,36(5):540-545 【核心库】
关键词 文本分类 ; 语料库 ; 相关度矩阵 ; 句权
地址

1. 中国科学技术大学自动化系, 安徽, 合肥, 230027  

2. 中国科学院合肥智能机械研究所, 安徽, 合肥, 230031

语种 中文
文献类型 研究性论文
ISSN 0253-2778
学科 自动化技术、计算机技术
基金 国家自然科学基金资助
文献收藏号 CSCD:2541183

参考文献 共 9 共1页

1.  ScienceChina 中国科学文献服务系统

您还没有权限

 


请您 返回ScienceChina—中国科学文献服务系统首页重新检索,如果您在使用ScienceChina—中国科学文献服务系统遇到问题。

销售咨询联系:

北京中科进出口有限责任公司

联系电话: (010) 84039345-635

电子邮件:chuw@bjzhongke.com.cn

联系地址:北京市东城区安定门外大街138号皇城国际大厦B座801 100011

服务咨询联系:

中国科学院文献情报中心

联系电话: (010) 82627496

传 真:(010) 82627496

电子邮件:cscd@mail.las.ac.cn

联系地址:北京市 海淀区 北四环西路33号 100190

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号