特征的支持度与其分类能力的关系研究
Research on the Relationship of the Support and the Discriminative Ability for Classification of Features
查看参考文献17篇
文摘
|
频繁模式挖掘在分类问题中得到了广泛的应用,大量的工作利用频繁模式挖掘对分类问题进行特征选择,但对于为什么频繁模式挖掘可以在分类问题中进行有效的特征选择则缺乏系统的研究。为了为频繁模式挖掘在分类问题中的特征选择应用提供理论基础,需要确立特征的支持度与特征分类能力之间的关系,本文以特征的信息增益作为分类能力的评价准则,讨论其与特征支持度之间的联系。首先证明了信息增益是特征支持度的上凸函数;然后,在二类问题和多类问题情况下,分别证明了具有低支持度或高支持度的特征具有有限的信息增益,即具有低支持度或高支持度的特征具有有限的分类能力。最后,通过仿真实验验证了支持度与信息增益之间的关系,为频繁模式挖掘在分类问题中的应用提供了理论基础。 |
其他语种文摘
|
Frequent pattern mining is used widely in feature selection for classification problem .In order to provide theoretical basis for the application ,we established the relationship between the classification discriminative ability and the support of the feature .Information gain was adopted as evaluation criteria ,and we discussed the connection between the support of the feature and its discriminative ability .Firstly ,we proved the information gain is a concave function about the support of the feature ;secondly ,we proved the conclusion that the feature with too-high or too-low support has limited discriminative ability under the two classes and multiple classes circumstances separately ;Finally ,simulation experiments validate our conclusions .And the conclusion provides a theoretical basis for the application of frequent pattern mining in classification problems . |
来源
|
电子学报
,2015,43(2):248-254 【核心库】
|
DOI
|
10.3969/j.issn.0372-2112.2015.02.007
|
关键词
|
频繁模式
;
分类
;
特征选择
;
信息增益
|
地址
|
1.
济南大学信息科学与工程学院, 山东省网络环境智能计算技术重点实验室;;中国科学院太阳活动重点实验室, 山东, 济南, 250022
2.
山东大学控制科学与工程学院, 山东, 济南, 250061
3.
济南大学信息科学与工程学院, 山东省网络环境智能计算技术重点实验室, 山东, 济南, 250022
4.
中国科学院太阳活动重点实验室, 中国科学院太阳活动重点实验室, 北京, 100012
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
0372-2112 |
学科
|
自动化技术、计算机技术 |
基金
|
中科院太阳活动重点实验室开放课题
;
山东省高等学校科技发展计划
;
国家自然科学基金
|
文献收藏号
|
CSCD:5375574
|
参考文献 共
17
共1页
|
1.
陈晓云. 基于分类规则树的频繁模式文本分类.
软件学报,2006,17(5):1017-1025
|
CSCD被引
12
次
|
|
|
|
2.
Lodhi H. Text classification using string kernels.
Journal of Machine Learning Research,2002,2(3):419-444
|
CSCD被引
33
次
|
|
|
|
3.
Li Y. Text document clustering based on frequent word meaningsequences.
Data and Knowledge Engineering,2008,64(1):381-404
|
CSCD被引
10
次
|
|
|
|
4.
赵建邦. 一种用于生物网络数据的频繁模式挖掘算.
电子学报,2010,38(8):1803-1807
|
CSCD被引
5
次
|
|
|
|
5.
Young-Rae Cho. Predicting protein function by frequent functional association pattern mining in protein interaction networks.
IEEE Transactions on Information Technology in Biomedicine,2010,14(1):30-36
|
CSCD被引
3
次
|
|
|
|
6.
Alves R. Gene association analysis:a survey of frequent pattern mining from gene expression data.
Briefings in Bioinformatics,2010,11(2):210-224
|
CSCD被引
2
次
|
|
|
|
7.
Hong Cheng. Discriminative frequent pattern analysis for effective classification.
IEEE 23rd International Conferenceon Data Engineering,2007:716-725
|
CSCD被引
1
次
|
|
|
|
8.
Han Jiawei. Frequent pattern mining:current status and future directions.
Journal of Data Mining and Knowledge Discovery,2007,15(1):55-86
|
CSCD被引
51
次
|
|
|
|
9.
Carl H. Sequential pattern mining-approaches and algorithms.
ACM Computing Surveys,2013,45(2):1-19
|
CSCD被引
8
次
|
|
|
|
10.
高琳. 图数据中频繁模式挖掘算法研究综述.
电子学报,2008,36(8):1603-1609
|
CSCD被引
5
次
|
|
|
|
11.
万里. 一种基于频繁模式的时间序列分类框架.
电子与信息学报,2010,32(2):261-266
|
CSCD被引
1
次
|
|
|
|
12.
Lee Jae Gil. Mining discriminative patterns for classifying trajectories on road networks.
IEEE Transactions on Knowledge and Data Engineering,2011,23(5):713-726
|
CSCD被引
8
次
|
|
|
|
13.
Bishop C M.
Pattern Recognition and Machine Learning,2006:55-57
|
CSCD被引
1
次
|
|
|
|
14.
Stephen B.
Convex Optimization,2004:136-146
|
CSCD被引
1
次
|
|
|
|
15.
Michalski R S. The multi-purpose incremental learningsystem AQ15 and its testing application to three medical domains.
Proceedings of the Fifth National Conference on Artificial Intelligence,1986:1041-1045
|
CSCD被引
1
次
|
|
|
|
16.
Guyon I. Result analysis of the NIPS 2003 featureselection challenge.
Proceedings on Advances in Neural Information Processing Systems,2004:545-552
|
CSCD被引
1
次
|
|
|
|
17.
Rocha A R. Diagnostic of pathology on the vertebral column with embedded reject option.
Proceedings of the 5th Iberian Conference on Pattern Recognition and Image Analysis,2011:588-595
|
CSCD被引
1
次
|
|
|
|
|