MaliciousUrls_Part2
MaliciousUrls_Part2 copied to clipboard
机器学习检测恶意URL改进版
MaliciousUrls2 - 机器学习检测恶意url第二版
Welcome to my personal blog(^◇^)
介绍
-
[√] 基于机器学习的恶意Url检测第二版
-
[√] 通过IF-TDF模型对数据进行预处理
-
[√] kmeans算法初步进行特征提取
-
[√] SVM和逻辑回归算法建模
使用
-
git clone 项目 or 下载 Release
-
cd 项目文件夹 &&
pip3 install -r requirements.txt -
待检测url在start.py中设置
-
python3 start.py即可训练模型并自动预测,打包的项目文件里已经有训练好的模型,可以直接运行 -
可以参照下面的说明设置样本和模型参数重新训练模型
说明
模型训练
- 可在model.py中指定kmeans聚合维度和ngram分词法的格式
数据格式
- 数据存放文件夹默认为白样本存放在/data/good中,黑样本存放在/data/bad中,测试文件可通过start.py指定位置。
数据样式
-
url样式参照样本文件,同时提供pcap.py实现从pcap包中自动提取http包的url。
-
在pcap.py中指定pcap文件,执行
python3 pcap.py即可