avbook icon indicating copy to clipboard operation
avbook copied to clipboard

关于avbook遭遇反爬虫的解决方案。

Open guyueyingmu opened this issue 6 years ago • 33 comments

经过诸君这几天坚持不懈的爬取,目标网站终于升级了反爬虫机制,avbook爬虫现已失效。

新的反反爬虫方法暂不公开,后面新来的小伙伴暂时上不了车了,请耐心等待。

这里征集一下关于 avbook 数据库升级的方法与建议。

目前的想法是将增量数据同步到 github 或者 docker ,通过下载升级包进行数据库升级。

如果你有更好的建议欢迎告诉我。

guyueyingmu avatar Jul 18 '19 10:07 guyueyingmu

是不是通过伪造IP方法解决? 下载升级包太麻烦了吧,数据库版本最好能支持5.5,毕竟5.7要求硬件太高了。

weiyidu avatar Jul 18 '19 11:07 weiyidu

老哥骚的不行啊

peterrosetu avatar Jul 18 '19 12:07 peterrosetu

增量数据关键是没有步兵...

noonefoundme avatar Jul 18 '19 12:07 noonefoundme

希望能加入爬步兵的代码.我

noonefoundme avatar Jul 18 '19 15:07 noonefoundme

come on

865826021 avatar Jul 19 '19 09:07 865826021

老板能否告知 这个修改UA 位置在哪里么?

netstat2016 avatar Jul 19 '19 12:07 netstat2016

下载升级包进行数据库升级也不错,注意保护好个人隐私。

lsubaa avatar Jul 20 '19 04:07 lsubaa

下載包有個密碼

On 20/7/2019 at 12:12, miao wrote:

下载升级包进行数据库升级也不错,注意保护好个人隐私。

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/guyueyingmu/avbook/issues/60#issuecomment-513433984

netstat2016 avatar Jul 20 '19 08:07 netstat2016

数据公开就算了,还让大家超线程爬,现在好了,目标网站改成hashid,原来的36进制id没法自增了吧?想办法挂日本代理,直接爬fanza吧

leililei avatar Jul 21 '19 02:07 leililei

增量更新包挺好的,方便,直接!

afboyxiyang avatar Jul 22 '19 01:07 afboyxiyang

我之前一直都是单线程慢慢爬的,网站可能流量压力还没那么大,都是多线程肯定不好使 建议有杀伤力的代码别公开,只公开一个用于访问的web服务,数据包另外下载,这样你的爬虫可以长久运行不会被封杀,没有编程基础的也不用倒腾爬虫了,直接下载增量包就可以,适当收费也不是不行

moozik avatar Jul 22 '19 09:07 moozik

難搞了呀哈哈

Sent using the mail.com mail app

On 21/7/2019 at 10:27, Leililei wrote:

数据公开就算了,还让大家超线程爬,现在好了,目标网站改成hashid,原来的36进制id没法自增了吧?想办法挂日本代理,直接爬fanza吧

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/guyueyingmu/avbook/issues/60#issuecomment-513513768

netstat2016 avatar Jul 23 '19 11:07 netstat2016

自己一直维护着一个数据库, 好久了, 从0开始单线程爬取, 设置了爬取频率2.5秒, 30多万条全部爬完用了14天, 给人家服务器制造的压力非常小, 后期就每天增量一下. 后来发现这里有这么个项目, 您这可好, 1小时爬全站, 谁受得了? 我这想重新爬, 又害怕人家网站再随便改改, 我又白爬了. 太坑了. 过来发发牢骚, 别介意.

Sugimoto-Dev avatar Jul 24 '19 09:07 Sugimoto-Dev

有个办法,就是你搞个WEB(类似资源站的东西),采集入库后,然后爬虫直接采集你的WEB即可,比数据库什么升级包增量包不是更好?可以保证永久性。。。 当然,也支持一段时间公布爬虫,这样可以保持充分开源(最好有一定门槛),给要折腾的人玩,只想爬数据的直接用你的爬虫自动玩就行了。。。。 好了,我还没开始,准备开始,一看7.19进来了这里。。。。当然,之前也打算开始的,自己也结合某车打算玩玩的,不过还没想好。。。

imhut avatar Jul 25 '19 11:07 imhut

公众号也被请去喝茶了吗?没上车的我表示没有开上车呀

huxingming avatar Jul 28 '19 11:07 huxingming

在这里,我建议还是不要用公众号,毕竟这东西犯禁,建议移动到电报比较好,增量包其实是个不错的方案,对于只想获取资源的人来说,我今天微博上看到有人推荐这个源码,还没来得及爬资源,但是我还是把源码下载下来学习一下,毕竟你这爬取设计规则还是很好的。

希望老哥可以继续开源技术,另外,你可以放一下打赏二维码,让大家多多少少可以支持一下。开源万岁。

yousifun avatar Jul 29 '19 06:07 yousifun

数据包升级可以,方便

Firday avatar Jul 30 '19 11:07 Firday

当初我一下午爬完了30W数据。。现在后悔了。。。早知道不删库了。

AccountNotDefined avatar Aug 06 '19 10:08 AccountNotDefined

建议docker,简直方便

mengdodo avatar Aug 06 '19 10:08 mengdodo

目测是把人家网站爬崩了,500个并发,10来个人同时爬人家服务器都可能吃不消。 项目有意思,表示去会会人家的反爬策略

beforeuwait avatar Aug 08 '19 03:08 beforeuwait

没上车的懊恼不已

susengo avatar Aug 13 '19 01:08 susengo

没上车的懊恼不已

别懊恼啊,不是有win的压缩包么。。

BlacK201 avatar Aug 13 '19 04:08 BlacK201

数据包可以单独给一个下载,不然 下载那么大的包 结果只用上了数据库

GoToBoy avatar Oct 01 '19 12:10 GoToBoy

github上同步更新吧

h958661134 avatar Oct 25 '19 07:10 h958661134

建议单独更新数据包,再加上单线程爬取,在数据包的基础上慢速更新到最新日期是一个比较不错的选择

Devourd avatar Nov 05 '19 09:11 Devourd

建议 docker

wangcong099878 avatar Nov 12 '19 01:11 wangcong099878

没上车的懊恼不已XD

pentestcoffee avatar Dec 17 '19 07:12 pentestcoffee

单独更新数据包好,毕竟有些同学对代码不是很熟,肯定会有重复爬取的情况出现。

fetter1991 avatar Jan 09 '20 07:01 fetter1991

或者移到ZeroNet?

xingheng avatar Jan 20 '20 14:01 xingheng

这么多人爬网站肯定受不住,建议在GitHub上发布数据包,这样大家只需要从不限流的GitHub下载数据包

fr0der1c avatar Feb 03 '20 03:02 fr0der1c