基于Hadoop 平台的相关性权重算法设计与实现
Design and Implementation of Correlation Weight Algorithm Based on Hadoop Platform
查看参考文献17篇
文摘
|
传统TF-IDF 算法仅从词频与逆向文档频率的角度计算关键词与文档之间的相关性权重,忽略了用户兴趣对权重计算的影响。为此,以满足用户信息检索目的为研究背景,提出一种基于日志关联的相关性权重算法。从面向用户相关性的角度出发,通过分析用户的搜索日志建立用户兴趣模型,并结合分布式计算的思想,运用 MapReduce 编程框架实现计算任务的并行化处理。实验结果表明,该算法在处理海量数据时,不仅能够提高算法效率,而且可以根据用户的历史检索记录动态地改变检索词的权重,提升用户与系统的交互能力。 |
其他语种文摘
|
The traditional TF-IDF algorithm calculates the correlation weights between keywords and documents only by using the perspective of word frequency and reverse document frequency,which ignoes the influence of user interest on weight calculation.In order to meet the purpose of user information retrieval,a correlation weight algorithm based on journal association is proposed.From the perspective of user-oriented comelation,the user interest model is built by analyzing the user's search journal,and combined with the idea of distributed computing,the MapReduce programming framework is used to realize the parallel processing of computing tasks.Experimental results show that it can not only improve the efficiency of the algorithm when dealing with massive data,but also dynamically change the weight of retrieval word according to the user's historical retrieval records,so as to enhance the interaction ability between users and the system. |
来源
|
计算机工程
,2019,45(3):26-31 【扩展库】
|
DOI
|
10.19678/j.issn.1000-3428.0049976
|
关键词
|
分布式计算
;
TF-IDF 算法
;
日志
;
兴趣模型
;
信息检索
|
地址
|
上海海事大学信息工程学院, 上海, 201306
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
1000-3428 |
学科
|
自动化技术、计算机技术 |
基金
|
国家自然科学基金
;
上海海事大学研究生创新基金
|
文献收藏号
|
CSCD:6504271
|
参考文献 共
17
共1页
|
1.
付志超.
基于Map/Reduce的分布式智能搜索引擎框架研究,2008
|
CSCD被引
1
次
|
|
|
|
2.
邓玉林.
基于hadoop大数据框架的个性化推荐系统研究与实现,2016
|
CSCD被引
1
次
|
|
|
|
3.
慕慧鸽. 国内情报学领域信息检索相关性研究进展分析.
图书馆学研究,2016(6):10-14
|
CSCD被引
1
次
|
|
|
|
4.
Salton G. On the construction of effective vocabularies for information retrieval.
Proceedings of ACM SIGPLAN-SIGIR Interface Meeting.9(3),1973:48-60
|
CSCD被引
1
次
|
|
|
|
5.
Salton G.
Extended Boolean information retrieval,1982
|
CSCD被引
2
次
|
|
|
|
6.
李学明. 基于信息增益与信息熵的TFIDF算法.
计算机工程,2012,38(8):37-40
|
CSCD被引
12
次
|
|
|
|
7.
张瑜. 一种改进的特征权重算法.
计算机工程,2011,37(5):210-212
|
CSCD被引
6
次
|
|
|
|
8.
张瑾. 基于改进TF-IDF算法的情报关键词提取方法.
情报杂志,2014(4):153-155
|
CSCD被引
8
次
|
|
|
|
9.
龚静. 一种基于多重因子加权的文本特征项权值计算方法.
计算技术与自动化,2007,26(1):81-83
|
CSCD被引
5
次
|
|
|
|
10.
张玉芳. 基于信息增益的特征词权重调整算法研究.
计算机工程与应用,2007,43(35):159-161
|
CSCD被引
9
次
|
|
|
|
11.
贺科达. 基于改进TF-IDF算法的文本分类方法研究.
广东工业大学学报,2016,33(5):49-53
|
CSCD被引
5
次
|
|
|
|
12.
周源. 基于改进TF-IDF特征提取的文本分类模型研究.
情报科学,2017(5):111-118
|
CSCD被引
6
次
|
|
|
|
13.
王锴. 基于MapReduce的术语权重计算方法研究.
电信科学,2011,27(11):62-65
|
CSCD被引
1
次
|
|
|
|
14.
李彬. 基于Hadoop框架的TF-IDF算法改进.
微型机与应用,2012,31(7):14-16
|
CSCD被引
2
次
|
|
|
|
15.
姚卫国. 基于Hadoop分布式平台的Web文本关键词提取方案.
湘潭大学(自然科学学报),2016,38(2):79-83
|
CSCD被引
1
次
|
|
|
|
16.
Dean J. MapReduce: simplified data processing on large clusters.
Proceedings of Conference on Symposium on Opearting Systems Design and Implementation,2008:10-10
|
CSCD被引
1
次
|
|
|
|
17.
代志远(译).
HBase权威指南,2013
|
CSCD被引
3
次
|
|
|
|
|