帮助 关于我们

返回检索结果

基于Hadoop 平台的相关性权重算法设计与实现
Design and Implementation of Correlation Weight Algorithm Based on Hadoop Platform

查看参考文献17篇

文摘 传统TF-IDF 算法仅从词频与逆向文档频率的角度计算关键词与文档之间的相关性权重,忽略了用户兴趣对权重计算的影响。为此,以满足用户信息检索目的为研究背景,提出一种基于日志关联的相关性权重算法。从面向用户相关性的角度出发,通过分析用户的搜索日志建立用户兴趣模型,并结合分布式计算的思想,运用 MapReduce 编程框架实现计算任务的并行化处理。实验结果表明,该算法在处理海量数据时,不仅能够提高算法效率,而且可以根据用户的历史检索记录动态地改变检索词的权重,提升用户与系统的交互能力。
其他语种文摘 The traditional TF-IDF algorithm calculates the correlation weights between keywords and documents only by using the perspective of word frequency and reverse document frequency,which ignoes the influence of user interest on weight calculation.In order to meet the purpose of user information retrieval,a correlation weight algorithm based on journal association is proposed.From the perspective of user-oriented comelation,the user interest model is built by analyzing the user's search journal,and combined with the idea of distributed computing,the MapReduce programming framework is used to realize the parallel processing of computing tasks.Experimental results show that it can not only improve the efficiency of the algorithm when dealing with massive data,but also dynamically change the weight of retrieval word according to the user's historical retrieval records,so as to enhance the interaction ability between users and the system.
来源 计算机工程 ,2019,45(3):26-31 【扩展库】
DOI 10.19678/j.issn.1000-3428.0049976
关键词 分布式计算 ; TF-IDF 算法 ; 日志 ; 兴趣模型 ; 信息检索
地址

上海海事大学信息工程学院, 上海, 201306

语种 中文
文献类型 研究性论文
ISSN 1000-3428
学科 自动化技术、计算机技术
基金 国家自然科学基金 ;  上海海事大学研究生创新基金
文献收藏号 CSCD:6504271

参考文献 共 17 共1页

1.  付志超. 基于Map/Reduce的分布式智能搜索引擎框架研究,2008 CSCD被引 1    
2.  邓玉林. 基于hadoop大数据框架的个性化推荐系统研究与实现,2016 CSCD被引 1    
3.  慕慧鸽. 国内情报学领域信息检索相关性研究进展分析. 图书馆学研究,2016(6):10-14 CSCD被引 1    
4.  Salton G. On the construction of effective vocabularies for information retrieval. Proceedings of ACM SIGPLAN-SIGIR Interface Meeting.9(3),1973:48-60 CSCD被引 1    
5.  Salton G. Extended Boolean information retrieval,1982 CSCD被引 2    
6.  李学明. 基于信息增益与信息熵的TFIDF算法. 计算机工程,2012,38(8):37-40 CSCD被引 12    
7.  张瑜. 一种改进的特征权重算法. 计算机工程,2011,37(5):210-212 CSCD被引 6    
8.  张瑾. 基于改进TF-IDF算法的情报关键词提取方法. 情报杂志,2014(4):153-155 CSCD被引 8    
9.  龚静. 一种基于多重因子加权的文本特征项权值计算方法. 计算技术与自动化,2007,26(1):81-83 CSCD被引 5    
10.  张玉芳. 基于信息增益的特征词权重调整算法研究. 计算机工程与应用,2007,43(35):159-161 CSCD被引 9    
11.  贺科达. 基于改进TF-IDF算法的文本分类方法研究. 广东工业大学学报,2016,33(5):49-53 CSCD被引 5    
12.  周源. 基于改进TF-IDF特征提取的文本分类模型研究. 情报科学,2017(5):111-118 CSCD被引 6    
13.  王锴. 基于MapReduce的术语权重计算方法研究. 电信科学,2011,27(11):62-65 CSCD被引 1    
14.  李彬. 基于Hadoop框架的TF-IDF算法改进. 微型机与应用,2012,31(7):14-16 CSCD被引 2    
15.  姚卫国. 基于Hadoop分布式平台的Web文本关键词提取方案. 湘潭大学(自然科学学报),2016,38(2):79-83 CSCD被引 1    
16.  Dean J. MapReduce: simplified data processing on large clusters. Proceedings of Conference on Symposium on Opearting Systems Design and Implementation,2008:10-10 CSCD被引 1    
17.  代志远(译). HBase权威指南,2013 CSCD被引 3    
引证文献 1

1 李文信 一种近似最小有效瓶颈优先的Coflow调度机制 计算机工程,2019,45(10):19-25,32
CSCD被引 0 次

显示所有1篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号