帮助 关于我们

返回检索结果

基于机器学习的网页暗链检测方法
Detection Method for Hidden Hyperlink Based on Machine Learning

查看参考文献15篇

周文怡 1   顾徐波 2   施勇 1   薛质 1  
文摘 在大数据时代下,传统暗链检测技术无法在海量网页中快速准确地识别出遭遇“暗链攻击”的网站.为此,提出一种引入机器学习的方法研究网页的暗链检测.该方法结合暗链的域名、相关文本及隐藏结构3种特征,分别采用分类与回归树、梯度提升决策树及随机森林3种算法来构建检测模型并对比其的性能.实验结果表明,该方法具有较高的准确性和可靠性,其中随机森林构建的检测模型分类准确率可以达到0.984.
其他语种文摘 In the era of big data,traditional hidden hyperlink detection technology cannot quickly and accurately identify websites that encounter“hidden hyperlink attacks”on massive Web pages. To solve this problem,this paper introduces machine learning to the detection method for hidden hyperlink,which combines the characteristics of hidden hyperlink related texts,hidden hyperlink domains and the hidden structure of hidden hyperlink. The three models are constructed and compared using Classification and Regression Tree ( CART ),Gradient Boosted Decision Tree ( GBDT ) and Random Forest ( RF). based on the proposed method. Experimental results show that the proposed method has high accuracy and reliability, and the classification accuracy of the detection model constructed by RF can reach 0.984.
来源 计算机工程 ,2018,44(10):22-27 【扩展库】
DOI 10.3969/j.issn.1000-3428
关键词 暗链 ; 特征提取 ; 交叉验证 ; 分类与回归树 ; 随机森林 ; 梯度提升决策树
地址

1. 上海交通大学网络空间安全学院, 上海, 200240  

2. 上海交通大学机械与动力工程学院, 上海, 200240

语种 中文
文献类型 研究性论文
ISSN 1000-3428
学科 自动化技术、计算机技术
基金 国家自然科学基金重点项目
文献收藏号 CSCD:6345006

参考文献 共 15 共1页

1.  国家互联网应急中心. CNCERT互联网安全威胁报告-2018年2月,2018 被引 1    
2.  Guang G. A taxonomy of hyperlink hiding techniques,2014 被引 1    
3.  邢容. 基于文本识别技术的网页恶意代码检测方法研究,2012 被引 3    
4.  孟池洁. 基于统计机器学习的互联网暗链检测方法. 计算机应用研究,2015,32(9):2779-2783 被引 1    
5.  杨望. 基于机器学习的网页黑链检测算法. 第七届信息安全漏洞分析与风险评估大会论文集,2014:416-423 被引 1    
6.  Page L. The PageRank citation ranking: Bringing order to the web. Stanford Digital Libraries Working Paper,1998,9(1):1-14 被引 26    
7.  Quinlan J R. Decision trees and decision-making. IEEE Transactions on Systems,Man,and Cybernetics,1990,20(2):339-346 被引 9    
8.  周恺. 基于概率提升树的虹膜分割算法. 计算机工程,2017,43(8):249-252,257 被引 1    
9.  Manna S. A statistical approach to predict flight delay using gradient boosted decision tree. Proceedings of International Conference on Computational Intelligence in Data Science,2017:1-5 被引 1    
10.  Chihab Y. Detection & classification of internet intrusion based on the combination of random forest and naive bayes. International Journal of Engineering &Technology,2013,5(3):2116-2126 被引 1    
11.  董兰芳. 基于深度学习与随机森林的人脸年龄与性别分类研究. 计算机工程,2018,44(5):246-251 被引 5    
12.  Sun J Y. JIEBA Chinese text segmentation,2018 被引 1    
13.  Fakhraei S. Bias and stability of single variable classifiers for feature ranking and selection. Expert Systems with Applications,2014,41(15):6945-6958 被引 2    
14.  贾周阳. 基于机器学习的日志函数自动识别方法. 计算机工程与科学,2017,39(1):111-117 被引 2    
15.  Hammerla N Y. Deep, convolutional,and recurrent models for human activity recognition using wearables. Journal of Scientific Computing,2016,61(2):454-476 被引 2    
引证文献 2

1 印杰 基于深度学习的网页篡改远程检测研究 南京理工大学学报. 自然科学版,2020,44(1):49-54
被引 1

2 杨望 基于网页结构与语言特征的垃圾网页链接检测方法 东北大学学报. 自然科学版,2020,41(8):1091-1096
被引 0 次

显示所有2篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号