帮助 关于我们

返回检索结果

基于Hadoop的Web日志挖掘
Weblog Mining Based on Hadoop

查看参考文献8篇

程苗 1   陈华平 2  
文摘 基于单一节点的数据挖掘系统在挖掘web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘w曲日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的web日志文件,可以明显提高w曲数据挖掘的效率。
其他语种文摘 The mass data from Web are distributed,heterogeneous and dynamic,so the current data mining system based on single node has developed to a bottleneck.Using the advantage of cloud computing-distributed processing and virtualization,this paper presents a Weblog analysis platform under the Hadoop's cluster framework based on cloud computing,it also presents a hybrid algorithm which can distributed process in the cloud computing environment.To further verify the effectiveness and efficiency of the platform,it uses the improved algorithm to mine users' preferred access path in Weblog on the platform.Experimental results show that,using distributed algorithm to process large number of Weblog files in the cluster,can significantly improve the efficiency of Web data mining.
来源 计算机工程 ,2011,37(11):37-39 【核心库】
关键词 云计算 ; Hadoop架构 ; Map/Reduce编程模式 ; web日志挖掘 ; 遗传算法 ; 偏爱访问路径
地址

1. 中国科学技术大学管理学院, 合肥, 230026  

2. 中国科学技术大学计算机科学与技术学院, 合肥, 230026

语种 中文
文献类型 研究性论文
ISSN 1000-3428
学科 自动化技术、计算机技术
基金 博士点基金资助项目 ;  国家自然科学基金
文献收藏号 CSCD:4219367

参考文献 共 8 共1页

1.  纪俊. 一种基于云计算的数据挖掘平台架构设计与实现,2009 被引 8    
2.  朱 珠. 基于Hadoop的海量数据处理模型研究和应用,2008 被引 1    
3.  郭本俊. 基于MPI的云计算模型. 计算机工程,2009,35(24):84-85,96 被引 16    
4.  刘鹏. 云计算,2010 被引 33    
5.  邢东山. 从Web日志中挖掘用户浏览偏爱路径. 计算机学报,2003,26(11):1518-1523 被引 26    
6.  Savasere A. An Efficient Algorithm for Mining Association Rules in Large Databases. Proceedings of the 21st VLDB Conference.,1995:432-444 被引 1    
7.  王文平. 基于并行遗传算法的关联规则挖掘. 山东师范大学学报:自然科学版,2006,21(4):29-31 被引 1    
8.  周 勇. 基于并行遗传算法的规则发现研究. 计算机技术与发展,2008,18(8):137-139 被引 1    
引证文献 18

1 那丽春 集群资源模糊聚类划分模型 计算机工程,2012,38(6):34-36
被引 1

2 陆秋 基于MapReduce的决策树算法并行化 计算机应用,2012,32(9):2463-2465,2469
被引 6

显示所有18篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号