帮助 关于我们

返回检索结果

改进型加权KNN算法的不平衡数据集分类
Classification for Imbalanced Dataset of Improved Weighted KNN Algorithm

查看参考文献8篇

王超学 1   潘正茂 1 *   马春森 2   董丽丽 1   张涛 1  
文摘 K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类.为此,提出一种加权KNN算法GAK-KNN.定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,釆用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类.基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法.
其他语种文摘 Based on analyzing the shortages of K-Nearest Neighbor(KNN) algorithm in solving classification problems on imbalanced dataset, a novel KNN approach based on weight strategy(GAK-KNN) is presented. The key of GAK-KNN lies on defining a new weight assignment model, which can fully take into account the adverse effects caused by the uneven distribution of training sample between classes and within classes. The specific steps are as follows: use K-means algorithm based on Genetic Algorithm(GA) to cluster the training sample set, compute the weight for each training sample in accordance to the clustering results and weight assignment model, use the improved KNN algorithm to classify the test samples. GAK-KNN algorithm can significantly improve the identification rate of the minority samples and overall classification performance. Theoretical analysis and comprehensive experimental results on the UCI dataset confirm the claims.
来源 计算机工程 ,2012,38(20):160-163,168 【核心库】
关键词 不平衡数据集 ; 分类 ; K最邻近算法 ; 权重分配模型 ; 遗传算法 ; K-means算法
地址

1. 西安建筑科技大学信息与控制工程学院, 西安, 710055  

2. 中国农业科学院植物保护研究所, 北京, 100193

语种 中文
ISSN 1000-3428
学科 自动化技术、计算机技术
基金 国家自然科学基金资助项目 ;  陕西省自然科学基金 ;  陕西省教育厅自然科学基金
文献收藏号 CSCD:4682240

参考文献 共 8 共1页

1.  Paolo S. A Multi-objective Optimization Approach for Class Imbalance Learning. Pattern Recognition,2011,44(8):1801-1810 CSCD被引 7    
2.  Tan Songbo. Neighbor-weighted K-nearest Neighbor for Unbalanced Text Corpus. Expert Systems with Applications,2005,28(4):667-671 CSCD被引 9    
3.  郝秀兰. kNN文本分类器类偏斜问题的一种处理对策. 计算机研究与发展,2009,46(1):52-61 CSCD被引 18    
4.  Jason V H. Knowledge Discovery from Imbalanced and Noisy Data. Knowledge and Data Engineering,2009,68(12):1513-1542 CSCD被引 12    
5.  边婧. 不平衡入侵检测数据的代价敏感分类策略. 计算机应用研究,2009,26(8):3036-3038 CSCD被引 4    
6.  曲建华. 基于群体智能的聚类分析,2010 CSCD被引 1    
7.  李荣陆. 基于密度的kNN文本分类器训练样本裁剪方法. 计算机研究与发展,2004,41(4):539-544 CSCD被引 42    
8.  Holland J H. Adaptation in Nature and Artificial Systems,1975 CSCD被引 41    
引证文献 4

1 何田中 基于选择度的分类规则学习算法 计算机工程,2014,40(8):179-182,189
CSCD被引 0 次

2 陈智敏 基于改进KNN的话题跟踪算法 小型微型计算机系统,2014,35(8):1722-1725
CSCD被引 0 次

显示所有4篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号