wooyun_public 关于scrapy的问题

关于scrapy的问题

Open m4d3bug opened this issue 5 years ago • 5 comments

打算用4w的那个虚拟机去爬那个8w的虚拟机，以达到完全复原，有什么需要注意的事情？或者任何建议？我不大确定你scrapy里的设置，我还在阅读你的代码

Feb 10 '19 04:02 m4d3bug

Good idea! 爬之前建议先清空mongodb数据库中漏洞的数据、web目录下的静态html文件和图片；scrapy处理逻辑在piplines.py和WooyunSpider.py中，前者主要是保存内容到数据库及本地Html与图片文件，后都主要是内容抓取；注意url路径的处理。可以修改py代码之后先爬几页数据，达到目的后再全部爬取。爬完之后，要同步到elasticsearch，可参考之前我处理的过程。祝一切顺利。

Feb 10 '19 05:02 hanc00l

1）elasticsearch感觉会是问题，之前尝试部署一样的环境时，在生成索引时不仅假死而且失败。你指的同步到elasticsearch也是指生成索引吧？
2）也许可以结合以下的镜像站来看看你原来的思路，但是并不是全部页面都绝对有效知识库https://web.archive.org/web/20160719120927/http://drops.wooyun.org:80/
漏洞库https://web.archive.org/web/20160716054842/http://www.wooyun.org:80/index.php

Feb 15 '19 06:02 m4d3bug

爬取发现原有的40G大小捉襟见肘，需要扩容到50G以上：
https://blog.51cto.com/tsykl2008/1615396 （目前还不确定上传到自定义镜像的腾讯云会怎么样）使用mongo-connector进行索引同步时长过长，遂尝试采用transporter
相关链接：
http://wukangjie.top/2018/08/03/transport-data-from-mongo-to-es/
https://www.howtoing.com/how-to-sync-transformed-data-from-mongodb-to-elasticsearch-with-transporter-on-ubuntu-16-04

Feb 26 '19 09:02 m4d3bug

重新拜读了一下文件层级以及代码，然后结合之前完成爬取的图片内容，并且修复了漏洞文章内的90%链接跳转，重新搭建了该环境并且更新到了线上
https://www.madebug.net 所以结合了8w漏洞列表以及所有漏洞文章，没能集成elasticsearch，然后退而求次地优化了mongodb的部分功能。如果在使用中有图片显示的问题，欢迎留言，据我所知部分漏洞还是存在图片丢失的问题。

Mar 01 '19 07:03 m4d3bug

试验了一下发现点击大图，以及厂商和白帽信息的获取上，都存在问题，如果要都实现可用会需要重新爬取以及修改后端技术栈的可能，并且静态大图的统计为27G，超过了云主机的空间，因此考虑调整架构，多建一个静态的8w库来方便跳转吧这样就可以将链接还原到98%了吧。

Mar 03 '19 14:03 m4d3bug

wooyun_public wooyun_public copied to clipboard

关于scrapy的问题

wooyun_public
wooyun_public copied to clipboard