wooyun_public icon indicating copy to clipboard operation
wooyun_public copied to clipboard

关于scrapy的问题

Open m4d3bug opened this issue 5 years ago • 5 comments

打算用4w的那个虚拟机去爬那个8w的虚拟机,以达到完全复原,有什么需要注意的事情?或者任何建议?我不大确定你scrapy里的设置,我还在阅读你的代码

m4d3bug avatar Feb 10 '19 04:02 m4d3bug

Good idea! 爬之前建议先清空mongodb数据库中漏洞的数据、web目录下的静态html文件和图片;scrapy处理逻辑在piplines.py和WooyunSpider.py中,前者主要是保存内容到数据库及本地Html与图片文件,后都主要是内容抓取;注意url路径的处理。可以修改py代码之后先爬几页数据,达到目的后再全部爬取。爬完之后,要同步到elasticsearch,可参考之前我处理的过程。祝一切顺利。

hanc00l avatar Feb 10 '19 05:02 hanc00l

1)elasticsearch感觉会是问题,之前尝试部署一样的环境时,在生成索引时不仅假死而且失败。你指的同步到elasticsearch也是指生成索引吧?
2)也许可以结合以下的镜像站来看看你原来的思路,但是并不是全部页面都绝对有效 知识库https://web.archive.org/web/20160719120927/http://drops.wooyun.org:80/
漏洞库https://web.archive.org/web/20160716054842/http://www.wooyun.org:80/index.php

m4d3bug avatar Feb 15 '19 06:02 m4d3bug

爬取发现原有的40G大小捉襟见肘,需要扩容到50G以上:
https://blog.51cto.com/tsykl2008/1615396 (目前还不确定上传到自定义镜像的腾讯云会怎么样) 使用mongo-connector进行索引同步时长过长,遂尝试采用transporter
相关链接:
http://wukangjie.top/2018/08/03/transport-data-from-mongo-to-es/
https://www.howtoing.com/how-to-sync-transformed-data-from-mongodb-to-elasticsearch-with-transporter-on-ubuntu-16-04

m4d3bug avatar Feb 26 '19 09:02 m4d3bug

重新拜读了一下文件层级以及代码,然后结合之前完成爬取的图片内容,并且修复了漏洞文章内的90%链接跳转,重新搭建了该环境并且更新到了线上
https://www.madebug.net 所以结合了8w漏洞列表以及所有漏洞文章,没能集成elasticsearch,然后退而求次地优化了mongodb的部分功能。如果在使用中有图片显示的问题,欢迎留言,据我所知部分漏洞还是存在图片丢失的问题。

m4d3bug avatar Mar 01 '19 07:03 m4d3bug

试验了一下发现点击大图,以及厂商和白帽信息的获取上,都存在问题,如果要都实现可用会需要重新爬取以及修改后端技术栈的可能,并且静态大图的统计为27G,超过了云主机的空间,因此考虑调整架构,多建一个静态的8w库来方便跳转吧这样就可以将链接还原到98%了吧。

m4d3bug avatar Mar 03 '19 14:03 m4d3bug