帮助 关于我们

返回检索结果

基于均值漂移算法的文本聚类数目优化研究
Determining Best Text Clustering Number with Mean Shift Algorithm

查看参考文献34篇

赵华茗 *   余丽   周强  
文摘 【目的】探索最佳文本聚类数目的优化方法,为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法,提取Top N关键词向量作为语料库文本特征表达;结合均值漂移算法、聚类有效性指标(Silhouette)和均方误差(MSE)指标,确定最佳文本聚类数目。【结果】Top 4500关键词向量规模能较好呈现文本特征;基于均值漂移算法确定的最佳文本聚类数与人工研判优化的聚类数相符。【局限】选取的实验数据集合不够充足,缺少在其他领域的应用对比。【结论】本文方法可以在无监督方式下高质量完成文本聚类个数的确定。
其他语种文摘 [Objective] This paper explores the optimal method for determining the best text clustering number,aiming to improve the effectiveness of related algorithms.[Methods] First,we combined the TF-IDF and Word2Vec algorithms to extract the TopN keyword vectors as text feature expression in corpus.Then,we decided the best number of text clustering with the mean shift algorithm,clustering validity index (Silhouette) and mean square error (MSE) index.[Results] We found that the top 4500 keyword vectors could better represent the text features.The best number of text clustering by Mean Shift algorithm matched the manually optimized results.[Limitations] The size of experimental data sets needs to be expanded.Our results should to be compared with those of other applications.[Conclusions] The proposed method could effectively determin the best text clustering number in an unsupervised way.
来源 数据分析与知识发现 ,2019,3(9):27-35 【扩展库】
DOI 10.11925/infotech.2096-3467.2018.1259
关键词 均值漂移 ; 文本聚类 ; 聚类数 ; 聚类有效性
地址

中国科学院文献情报中心, 北京, 100190

语种 中文
文献类型 研究性论文
ISSN 2096-3467
学科 社会科学总论
基金 国家社会科学基金 ;  中国科学院文献情报中心文献情报能力建设专项项目
文献收藏号 CSCD:6698728

参考文献 共 34 共2页

1.  曹晓. 文本聚类研究综述. 情报探索,2016(1):131-134 被引 2    
2.  Zeng H J. Learning to Cluster Web Search Results. Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2004:210-217 被引 5    
3.  Cutting D R. Scatter/Gather: A Cluster-Based Approach to Browsing Large Document Collections. Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,1992:318-329 被引 4    
4.  王小华. 基于共词分析的文本主题词聚类与主题发现. 情报科学,2011,29(11):1621-1624 被引 6    
5.  刘远超. 文档聚类综述. 中文信息学报,2006,20(3):55-62 被引 29    
6.  徐晓旻. KBAC:一种基于K-means的自适应聚类. 小型微型计算机系统,2012,33(10):2268-2272 被引 4    
7.  Mikolov T. Distributed Representations of Words and Phrases and Their Compositionality. Advances in Neural Information Processing Systems,2013,26:3111-3119 被引 363    
8.  张群. 词向量与LDA相融合的短文本分类方法. 现代图书情报技术,2016(12):27-35 被引 15    
9.  林江豪. 结合词向量和聚类算法的新闻评论话题演进分析. 计算机工程与科学,2016,38(11):2368-2374 被引 4    
10.  Dai X. From Social Media to Public Health Surveillance: Word Embedding Based Clustering Method for Twitter Classification. Proceedings of the 2017 SoutheastCon,2017:1-7 被引 1    
11.  张琳. 一种基于密度的K-means算法研究. 计算机应用研究,2011,28(11):4071-4074 被引 11    
12.  韩凌波. K-均值算法中聚类个数优化问题研究. 四川理工学院学报:自然科学版,2012,25(2):77-80 被引 6    
13.  王勇. 高效率的K-means最佳聚类数确定算法. 计算机应用,2014,34(5):1331-1335 被引 21    
14.  张忠平. 简单有效的确定聚类数目算法. 计算机工程与应用,2009,45(15):166-168 被引 7    
15.  周士兵. 新的K-均值算法最佳聚类数确定方法. 计算机工程与应用,2010,46(16):27-31 被引 3    
16.  刘广聪. 改进的二分K均值聚类算法. 计算机应用与软件,2015,32(2):261-263 被引 4    
17.  Salton G. Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management,1987,24(5):513-523 被引 333    
18.  Hinton G E. Learning Distributed Representations of Concepts. Proceeding of the 8th Annual Conference of the Cognitive Science Society,1986:1-12 被引 1    
19.  Bengio Y. A Neural Probabilistic Language Model. Journal of Machine Learning Research,2003,3(6):1137-1155 被引 365    
20.  熊富林. Word2Vec的核心架构及其应用. 南京师范大学学报:工程技术版,2015,15(1):43-48 被引 23    
引证文献 3

1 董霏 基于机器视觉的线缆导体质量检测研究 电子测量与仪器学报,2020,34(6):144-153
被引 5

2 赵丹宁 基于深度学习的科技文献摘要结构要素自动抽取方法研究 数据分析与知识发现,2021,5(7):70-80
被引 4

显示所有3篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号