基于机器学习的网页暗链检测方法
Detection Method for Hidden Hyperlink Based on Machine Learning
查看参考文献15篇
文摘
|
在大数据时代下,传统暗链检测技术无法在海量网页中快速准确地识别出遭遇“暗链攻击”的网站.为此,提出一种引入机器学习的方法研究网页的暗链检测.该方法结合暗链的域名、相关文本及隐藏结构3种特征,分别采用分类与回归树、梯度提升决策树及随机森林3种算法来构建检测模型并对比其的性能.实验结果表明,该方法具有较高的准确性和可靠性,其中随机森林构建的检测模型分类准确率可以达到0.984. |
其他语种文摘
|
In the era of big data,traditional hidden hyperlink detection technology cannot quickly and accurately identify websites that encounter“hidden hyperlink attacks”on massive Web pages. To solve this problem,this paper introduces machine learning to the detection method for hidden hyperlink,which combines the characteristics of hidden hyperlink related texts,hidden hyperlink domains and the hidden structure of hidden hyperlink. The three models are constructed and compared using Classification and Regression Tree ( CART ),Gradient Boosted Decision Tree ( GBDT ) and Random Forest ( RF). based on the proposed method. Experimental results show that the proposed method has high accuracy and reliability, and the classification accuracy of the detection model constructed by RF can reach 0.984. |
来源
|
计算机工程
,2018,44(10):22-27 【扩展库】
|
DOI
|
10.3969/j.issn.1000-3428
|
关键词
|
暗链
;
特征提取
;
交叉验证
;
分类与回归树
;
随机森林
;
梯度提升决策树
|
地址
|
1.
上海交通大学网络空间安全学院, 上海, 200240
2.
上海交通大学机械与动力工程学院, 上海, 200240
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
1000-3428 |
学科
|
自动化技术、计算机技术 |
基金
|
国家自然科学基金重点项目
|
文献收藏号
|
CSCD:6345006
|
参考文献 共
15
共1页
|
1.
国家互联网应急中心.
CNCERT互联网安全威胁报告-2018年2月,2018
|
CSCD被引
1
次
|
|
|
|
2.
Guang G.
A taxonomy of hyperlink hiding techniques,2014
|
CSCD被引
1
次
|
|
|
|
3.
邢容.
基于文本识别技术的网页恶意代码检测方法研究,2012
|
CSCD被引
3
次
|
|
|
|
4.
孟池洁. 基于统计机器学习的互联网暗链检测方法.
计算机应用研究,2015,32(9):2779-2783
|
CSCD被引
1
次
|
|
|
|
5.
杨望. 基于机器学习的网页黑链检测算法.
第七届信息安全漏洞分析与风险评估大会论文集,2014:416-423
|
CSCD被引
1
次
|
|
|
|
6.
Page L. The PageRank citation ranking: Bringing order to the web.
Stanford Digital Libraries Working Paper,1998,9(1):1-14
|
CSCD被引
26
次
|
|
|
|
7.
Quinlan J R. Decision trees and decision-making.
IEEE Transactions on Systems,Man,and Cybernetics,1990,20(2):339-346
|
CSCD被引
9
次
|
|
|
|
8.
周恺. 基于概率提升树的虹膜分割算法.
计算机工程,2017,43(8):249-252,257
|
CSCD被引
1
次
|
|
|
|
9.
Manna S. A statistical approach to predict flight delay using gradient boosted decision tree.
Proceedings of International Conference on Computational Intelligence in Data Science,2017:1-5
|
CSCD被引
1
次
|
|
|
|
10.
Chihab Y. Detection & classification of internet intrusion based on the combination of random forest and naive bayes.
International Journal of Engineering &Technology,2013,5(3):2116-2126
|
CSCD被引
1
次
|
|
|
|
11.
董兰芳. 基于深度学习与随机森林的人脸年龄与性别分类研究.
计算机工程,2018,44(5):246-251
|
CSCD被引
5
次
|
|
|
|
12.
Sun J Y.
JIEBA Chinese text segmentation,2018
|
CSCD被引
1
次
|
|
|
|
13.
Fakhraei S. Bias and stability of single variable classifiers for feature ranking and selection.
Expert Systems with Applications,2014,41(15):6945-6958
|
CSCD被引
2
次
|
|
|
|
14.
贾周阳. 基于机器学习的日志函数自动识别方法.
计算机工程与科学,2017,39(1):111-117
|
CSCD被引
2
次
|
|
|
|
15.
Hammerla N Y. Deep, convolutional,and recurrent models for human activity recognition using wearables.
Journal of Scientific Computing,2016,61(2):454-476
|
CSCD被引
2
次
|
|
|
|
|