帮助 关于我们

返回检索结果

基于特征项分布的信息熵及特征动态加权概念漂移检测模型
Construction of the Concept Drift Detection Model Based on the Information Entropy of Feature Distribution and Dynamic Weighting Algorithm

查看参考文献17篇

孙雪 1   李昆仑 2   韩蕾 1   白晓亮 1  
文摘 现有的概念漂移算法大多建立在数据流的分类模型上,忽略了特征空间与样本空间的分布特点,以及特征选择和加权的重要性.针对此问题提出了一种基于特征项分布的信息熵及特征动态加权算法,从概念漂移的动态演化性出发,根据样本和特征空间的拟合程度,运用特征信息熵理论对数据流中的概念漂移现象进行捕捉,以实现新旧概念的过渡.利用改进的隐含Dirichlet模型特征动态加权算法,以解决当前特征与历史特征的权重确定和无效特征的裁剪问题.在公开的语料库CCERT和Trec06上的测试实验证明了所提出算法的有效性.
其他语种文摘 Most of the existing concept drift algorithm focuses on the classification model data streams,some of which overlook the distribution of the feature space and sample space, and the importance of feature selection and weighting. To solve this problem,we propose a dynamic information entropy and feature weighting algorithm based on the distribution of feature items from the dynamic evolution of the concept drift departure. To realize the concept transition,we capture the concept drifting of the data stream by the information entropy, according to the fitness degree between the sample and feature space. We improve the feature dynamic weighting latent dirichlet model, to overcome the problem of the current and historical feature weight assignment, as well as cropping the invalid features. Furthermore, the validity of the proposed algorithm was confirmed by the test in open corpus CCERT and Trec06.
来源 电子学报 ,2015,43(7):1356-1361 【核心库】
DOI 10.3969/j.issn.0372-2112.2015.07.016
关键词 概念漂移 ; LDA模型 ; 特征项分布 ; 信息熵
地址

1. 河北大学工商学院, 河北, 保定, 071002  

2. 河北大学电子信息工程学院, 河北, 保定, 071000

语种 中文
文献类型 研究性论文
ISSN 0372-2112
学科 自动化技术、计算机技术
基金 国家自然科学基金 ;  河北省自然科学基金 ;  国家科技支撑计划项目 ;  河北省高等学校科学技术研究项目 ;  河北大学青年基金
文献收藏号 CSCD:5485724

参考文献 共 17 共1页

1.  Widmer G. Learning in the presence of concept drift and hidden contexts. Machine Learning,1996(23):69-101 CSCD被引 77    
2.  Hoens T R. Learning from streaming data with concept drift and imbalance: an overview. Progress in Artificial Intelligence,2012,1(1):89-101 CSCD被引 9    
3.  文益民. 概念漂移数据流分类研究综述. 智能系统学报,2013,8(2):95-104 CSCD被引 14    
4.  柴玉梅. 基于频繁概念直乘分布的全局闭频繁项集挖掘算法. 计算机学报,2012,35(5):990-1000 CSCD被引 16    
5.  孙岳. 基于多分类器的数据流中的概念漂移挖掘. 自动化学报,2008,34(1):93-97 CSCD被引 15    
6.  欧阳震诤. 一种不平衡数据流集成分类模型. 电子学报,2010,38(1):184-189 CSCD被引 15    
7.  Elwell R. Incremental learning of concept drift in non-stationary environments. IEEE Transactions on Neural Networks,2011,22(10):1517-1531 CSCD被引 45    
8.  朱群. 一种基于双层窗口的概念漂移数据流分类算法. 自动化学报,2011,9(37):1077-1084 CSCD被引 1    
9.  徐文华. 基于半监督学习的数据流集成分类算法. 模式识别与人工智能,2012,25(2):292-299 CSCD被引 9    
10.  Piotr S. Concept drift detection and model selection with simulated recurrence and ensembles of statistical detectors. Journal of Universal Computer Science,2013,19(4):462-483 CSCD被引 1    
11.  Paulo M G. RCD: A recurring concept drift framework. Pattern Recognition Letters,2013,34(9):1018-1025 CSCD被引 9    
12.  Dewan M F. An adaptive ensemble classifier for mining concept drifting data streams. Expert Systems with Applications,2013,40(15):5895-5906 CSCD被引 12    
13.  Klinkenberg R. Learning drifting concepts: example selection vs. example weighting. Intelligent Data Analysis,2004,8(3):281-300 CSCD被引 15    
14.  Peter V. Entropy-based concept drift detection. Proceedings of the 6th International Conference on Data Mining,2006:1113-1118 CSCD被引 2    
15.  于剑. 关于极大熵聚类算法的收敛性定理的反例d. 中国科学E辑:技术科学,2003,33(6):531-536 CSCD被引 4    
16.  Blei D M. Latent dirichlet allocation. Journal of Machine Learning Research,2003(3):993-1022 CSCD被引 1357    
17.  石晶. 基于LDA模型的主题分析. 自动化学报,2009,35(12):1586-1592 CSCD被引 17    
引证文献 5

1 史荧中 面向数据流分类的柔性漂移支持向量机 计算机工程与应用,2017,53(23):118-122,158
CSCD被引 0 次

2 储光 基于语义的文本数据流概念漂移检测算法 计算机工程,2018,44(2):24-30
CSCD被引 1

显示所有5篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号