tomyu168

Results 12 comments of tomyu168

测试了scrapy官网的tutorial 案例运行没有问题

> 请问执行`scrapy run`命令时,你的当前目录是什么? C:\Users\HP ENVY\Downloads\tie>scrapy run a tt scrapy.cfg config.json所在目录 哥能不能加个qq方便截图,547301517,十分感谢

> 你直接截图复制后粘贴到issue框里,它会自动上传的。 > > 按你当前的目录,你确认下有没有`config.py`文件,是否和github一致? ![image](https://user-images.githubusercontent.com/35031186/125718719-f007206b-e9b1-43d6-833f-4387d998a78d.png) code以zip形式下载下来解压,除了config.json其他都没有改动过

> 要不再试试把项目放到另一个目录中,目录的前缀不要带有空格的(比如别放到HP ENVY里)。如果还不行的话,我也不会了 不行啊,我试试看把python卸载了重新安装看看,很久很久以前安装的,昨天第一次上,说什么pip要更新,我看网上有些说版本问题有关系,我看看是不是通过conda安装能够玄学一下

> 要不再试试把项目放到另一个目录中,目录的前缀不要带有空格的(比如别放到HP ENVY里)。如果还不行的话,我也不会了 兄弟,我重新安装python3.9莫名其妙解决了,但是又有了新问题。 ![image](https://user-images.githubusercontent.com/35031186/125725864-a15a7fdc-3221-447b-a5d2-44319cd062b5.png) ![image](https://user-images.githubusercontent.com/35031186/125725874-a27f56d7-2593-4c45-9823-16f6da5194a0.png) 执行了命令,爬不出东西,只有一次爬了10页,这个爬虫是从最早的帖子开始爬吗? ![image](https://user-images.githubusercontent.com/35031186/125725922-cacaf340-fcea-4e6e-9803-918e765acae2.png)

哥,目前测试了下发现只有开全局代理时,爬虫能够正常工作,但是运行时间巨慢,5分钟爬一页已经是极限了,看看问题出在哪里呢,不开代理什么都爬不出来

> 1. 是按页数的顺序爬的,不过贴吧id是按发帖时间顺序排列,所以在数据库中看到的是旧帖在前。 > 2. 这种情况应该是ip被百度拉黑了,代理换了ip所以不会被ban,但是代理因为带宽延迟等原因很慢也是正常的。目前百度拉黑这个问题我还不知道怎么解决,暂时也不打算去讨论。 不懂,什么是ip被baidu拉黑啊哥,我正常可以不通过代理浏览百度贴吧,反倒是开了代理上不了百度贴吧,但是运行这个爬虫程序就必须开代理才行,哥您是在云服务器运行这个爬虫的吗?

> 1. 是按页数的顺序爬的,不过贴吧id是按发帖时间顺序排列,所以在数据库中看到的是旧帖在前。 > 2. 这种情况应该是ip被百度拉黑了,代理换了ip所以不会被ban,但是代理因为带宽延迟等原因很慢也是正常的。目前百度拉黑这个问题我还不知道怎么解决,暂时也不打算去讨论。 哥,我去查了下好像setting.py里面设置user agent 或者proxy_pool可能解决这个问题,我等下试试看

哥,前天狂肝到凌晨4点终于成了,配合了另外一个github的项目获取动态ip验证拉黑,设置随机时间延迟 ![image](https://user-images.githubusercontent.com/35031186/126022908-ff52947f-f758-4533-bd72-d3410eb4dd1d.png) ![image](https://user-images.githubusercontent.com/35031186/126022911-27293168-c6b8-40a2-b87d-31fe775b099b.png) ![image](https://user-images.githubusercontent.com/35031186/126022920-8457e7c2-7201-4432-8e51-54386dee3e1e.png) ![image](https://user-images.githubusercontent.com/35031186/126022939-8452cef5-6db6-4cdc-8573-c289a5e1f1e0.png) 还是多谢哥的指点

不过用了这个办法之后速度大概是一小时不到10页,还有待多次测试看看更多问题,好像还是会卡可能是代理ip数不够用