帮助 关于我们

返回检索结果

基于文本分类TFIDF方法的改进与应用
Improvement and Application of TFIDF Method Based on Text Classification

查看参考文献10篇

张玉芳 1   彭时名 1   吕佳 2  
文摘 TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。
其他语种文摘 TFIDF is a kind of common methods used to measure the terms in a document. The method is easy but it undervalues these terms that frequently appear in tlie documents belonging to die same class, while those terms can represent die characteristic of the documents of this class, so higher weight is entrusted to them. The expression of IDF in TFIDF is modified lo increase the weight of those terms mentioned, then is applied to the experiment to validate it. In the experiment, the improved TFIDF is used to select feature and genetic algorithm is used to train the classifier. The method is better than others and proves that the improved TFIDF method is feasible.
来源 计算机工程 ,2006,32(19):76-78 【核心库】
关键词 文本分类 ; 特征选择 ; TFIDF ; 类别区分
地址

1. 重庆大学计算机学院, 重庆, 400045  

2. 重庆师范大学数学与计算机科学学院, 重庆, 400047

语种 中文
文献类型 研究性论文
ISSN 1000-3428
学科 自动化技术、计算机技术
文献收藏号 CSCD:2431375

参考文献 共 10 共1页

1.  刘源. 信息处理用现代汉语分词规范及自动分词算法,1994:36-51 被引 2    
2.  Mnic D. Feature Selection for Unbalanced Class Distribution and Naive Bayees. Proceedings of the 6th International Conference on Machine Learning Blrf:Morgan Kaufmann,1999:258-267 被引 1    
3.  Rocchio J. Relevance Feedback in Information Retrieval. Proc of SMART Retrieval System:Experiments in Automatic Doc,1971:313-323 被引 1    
4.  Salton G. A Vector Space Model for Automatic Indexing. Communications of ACM,1975,18(11):613-620 被引 381    
5.  刘斌. 一种新的基于统计的自动文本分类方法. 中文信息学报,2002,16(6):18-24 被引 16    
6.  范焱. 用Naive Bayes方法协调分类Web网页. 软件学报,2001,12(9):1386-1392 被引 19    
7.  梁久祯. 基于先验知识的网页特征压缩与线性分类器设计. 第十二届全国神经计算学术大会讨论文集,2002:494-501 被引 1    
8.  邹涛. WWW上的信息挖掘技术及实现. 计算机研究与发展,1999,36(8):1019-1024 被引 26    
9.  Rudolph G. Convergence Properties of Canonical Genetic Algorithms. IEEE Trans on Neural Networks,1994,5(1):96-101 被引 266    
10.  Yiming Y. An Evaluation of Statistic Approaches to Text Categorization. Information Retrieval,1999,1(2):69-90 被引 1    
引证文献 35

1 熊忠阳 文本分类中词语权重计算方法的改进与应用 计算机工程与应用,2008,44(5):187-189
被引 9

2 吕震宇 基于类信息的文本特征选择与加权算法研究 计算机工程与应用,2008,44(20):145-147,158
被引 2

显示所有35篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号