avbook 关于avbook遭遇反爬虫的解决方案。

经过诸君这几天坚持不懈的爬取，目标网站终于升级了反爬虫机制，avbook爬虫现已失效。

新的反反爬虫方法暂不公开，后面新来的小伙伴暂时上不了车了，请耐心等待。

这里征集一下关于 avbook 数据库升级的方法与建议。

目前的想法是将增量数据同步到 github 或者 docker ，通过下载升级包进行数据库升级。

如果你有更好的建议欢迎告诉我。

Jul 18 '19 10:07 guyueyingmu

是不是通过伪造IP方法解决？下载升级包太麻烦了吧，数据库版本最好能支持5.5，毕竟5.7要求硬件太高了。

Jul 18 '19 11:07 weiyidu

老哥骚的不行啊

Jul 18 '19 12:07 peterrosetu

增量数据关键是没有步兵...

Jul 18 '19 12:07 noonefoundme

希望能加入爬步兵的代码.我

Jul 18 '19 15:07 noonefoundme

come on

Jul 19 '19 09:07 865826021

老板能否告知这个修改UA 位置在哪里么？

Jul 19 '19 12:07 netstat2016

下载升级包进行数据库升级也不错，注意保护好个人隐私。

Jul 20 '19 04:07 lsubaa

下載包有個密碼

On 20/7/2019 at 12:12, miao wrote:

下载升级包进行数据库升级也不错，注意保护好个人隐私。

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/guyueyingmu/avbook/issues/60#issuecomment-513433984

Jul 20 '19 08:07 netstat2016

数据公开就算了，还让大家超线程爬，现在好了，目标网站改成hashid，原来的36进制id没法自增了吧？想办法挂日本代理，直接爬fanza吧

Jul 21 '19 02:07 leililei

增量更新包挺好的，方便，直接！

Jul 22 '19 01:07 afboyxiyang

我之前一直都是单线程慢慢爬的，网站可能流量压力还没那么大，都是多线程肯定不好使建议有杀伤力的代码别公开，只公开一个用于访问的web服务，数据包另外下载，这样你的爬虫可以长久运行不会被封杀，没有编程基础的也不用倒腾爬虫了，直接下载增量包就可以，适当收费也不是不行

Jul 22 '19 09:07 moozik

難搞了呀哈哈

Sent using the mail.com mail app

On 21/7/2019 at 10:27, Leililei wrote:

数据公开就算了，还让大家超线程爬，现在好了，目标网站改成hashid，原来的36进制id没法自增了吧？想办法挂日本代理，直接爬fanza吧

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/guyueyingmu/avbook/issues/60#issuecomment-513513768

Jul 23 '19 11:07 netstat2016

自己一直维护着一个数据库, 好久了, 从0开始单线程爬取, 设置了爬取频率2.5秒, 30多万条全部爬完用了14天, 给人家服务器制造的压力非常小, 后期就每天增量一下. 后来发现这里有这么个项目, 您这可好, 1小时爬全站, 谁受得了? 我这想重新爬, 又害怕人家网站再随便改改, 我又白爬了. 太坑了. 过来发发牢骚, 别介意.

Jul 24 '19 09:07 Sugimoto-Dev

有个办法，就是你搞个WEB（类似资源站的东西），采集入库后，然后爬虫直接采集你的WEB即可，比数据库什么升级包增量包不是更好？可以保证永久性。。。当然，也支持一段时间公布爬虫，这样可以保持充分开源（最好有一定门槛），给要折腾的人玩，只想爬数据的直接用你的爬虫自动玩就行了。。。。好了，我还没开始，准备开始，一看7.19进来了这里。。。。当然，之前也打算开始的，自己也结合某车打算玩玩的，不过还没想好。。。