tomyu168
tomyu168
测试了scrapy官网的tutorial 案例运行没有问题
> 请问执行`scrapy run`命令时,你的当前目录是什么? C:\Users\HP ENVY\Downloads\tie>scrapy run a tt scrapy.cfg config.json所在目录 哥能不能加个qq方便截图,547301517,十分感谢
> 你直接截图复制后粘贴到issue框里,它会自动上传的。 > > 按你当前的目录,你确认下有没有`config.py`文件,是否和github一致?  code以zip形式下载下来解压,除了config.json其他都没有改动过
> 要不再试试把项目放到另一个目录中,目录的前缀不要带有空格的(比如别放到HP ENVY里)。如果还不行的话,我也不会了 不行啊,我试试看把python卸载了重新安装看看,很久很久以前安装的,昨天第一次上,说什么pip要更新,我看网上有些说版本问题有关系,我看看是不是通过conda安装能够玄学一下
> 要不再试试把项目放到另一个目录中,目录的前缀不要带有空格的(比如别放到HP ENVY里)。如果还不行的话,我也不会了 兄弟,我重新安装python3.9莫名其妙解决了,但是又有了新问题。   执行了命令,爬不出东西,只有一次爬了10页,这个爬虫是从最早的帖子开始爬吗? 
哥,目前测试了下发现只有开全局代理时,爬虫能够正常工作,但是运行时间巨慢,5分钟爬一页已经是极限了,看看问题出在哪里呢,不开代理什么都爬不出来
> 1. 是按页数的顺序爬的,不过贴吧id是按发帖时间顺序排列,所以在数据库中看到的是旧帖在前。 > 2. 这种情况应该是ip被百度拉黑了,代理换了ip所以不会被ban,但是代理因为带宽延迟等原因很慢也是正常的。目前百度拉黑这个问题我还不知道怎么解决,暂时也不打算去讨论。 不懂,什么是ip被baidu拉黑啊哥,我正常可以不通过代理浏览百度贴吧,反倒是开了代理上不了百度贴吧,但是运行这个爬虫程序就必须开代理才行,哥您是在云服务器运行这个爬虫的吗?
> 1. 是按页数的顺序爬的,不过贴吧id是按发帖时间顺序排列,所以在数据库中看到的是旧帖在前。 > 2. 这种情况应该是ip被百度拉黑了,代理换了ip所以不会被ban,但是代理因为带宽延迟等原因很慢也是正常的。目前百度拉黑这个问题我还不知道怎么解决,暂时也不打算去讨论。 哥,我去查了下好像setting.py里面设置user agent 或者proxy_pool可能解决这个问题,我等下试试看
哥,前天狂肝到凌晨4点终于成了,配合了另外一个github的项目获取动态ip验证拉黑,设置随机时间延迟     还是多谢哥的指点
不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用