|
基于文本分类TFIDF方法的改进与应用
Improvement and Application of TFIDF Method Based on Text Classification
查看参考文献10篇
文摘
|
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。 |
其他语种文摘
|
TFIDF is a kind of common methods used to measure the terms in a document. The method is easy but it undervalues these terms that frequently appear in tlie documents belonging to die same class, while those terms can represent die characteristic of the documents of this class, so higher weight is entrusted to them. The expression of IDF in TFIDF is modified lo increase the weight of those terms mentioned, then is applied to the experiment to validate it. In the experiment, the improved TFIDF is used to select feature and genetic algorithm is used to train the classifier. The method is better than others and proves that the improved TFIDF method is feasible. |
来源
|
计算机工程
,2006,32(19):76-78 【核心库】
|
关键词
|
文本分类
;
特征选择
;
TFIDF
;
类别区分
|
地址
|
1.
重庆大学计算机学院, 重庆, 400045
2.
重庆师范大学数学与计算机科学学院, 重庆, 400047
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
1000-3428 |
学科
|
自动化技术、计算机技术 |
文献收藏号
|
CSCD:2431375
|
参考文献 共
10
共1页
|
1.
刘源.
信息处理用现代汉语分词规范及自动分词算法,1994:36-51
|
CSCD被引
2
次
|
|
|
|
2.
Mnic D. Feature Selection for Unbalanced Class Distribution and Naive Bayees.
Proceedings of the 6th International Conference on Machine Learning Blrf:Morgan Kaufmann,1999:258-267
|
CSCD被引
1
次
|
|
|
|
3.
Rocchio J. Relevance Feedback in Information Retrieval.
Proc of SMART Retrieval System:Experiments in Automatic Doc,1971:313-323
|
CSCD被引
1
次
|
|
|
|
4.
Salton G. A Vector Space Model for Automatic Indexing.
Communications of ACM,1975,18(11):613-620
|
CSCD被引
417
次
|
|
|
|
5.
刘斌. 一种新的基于统计的自动文本分类方法.
中文信息学报,2002,16(6):18-24
|
CSCD被引
16
次
|
|
|
|
6.
范焱. 用Naive Bayes方法协调分类Web网页.
软件学报,2001,12(9):1386-1392
|
CSCD被引
19
次
|
|
|
|
7.
梁久祯. 基于先验知识的网页特征压缩与线性分类器设计.
第十二届全国神经计算学术大会讨论文集,2002:494-501
|
CSCD被引
1
次
|
|
|
|
8.
邹涛. WWW上的信息挖掘技术及实现.
计算机研究与发展,1999,36(8):1019-1024
|
CSCD被引
26
次
|
|
|
|
9.
Rudolph G. Convergence Properties of Canonical Genetic Algorithms.
IEEE Trans on Neural Networks,1994,5(1):96-101
|
CSCD被引
267
次
|
|
|
|
10.
Yiming Y. An Evaluation of Statistic Approaches to Text Categorization.
Information Retrieval,1999,1(2):69-90
|
CSCD被引
1
次
|
|
|
|
|
|