Chen Lei

Results 931 comments of Chen Lei

可能和目标账号有关,某些类型的微博限制比较严。您可以修改spider.py,把range(1, page_num + 1)改成range(20, page_num + 1),这样程序就会从20页开始获取。

@2937317664 有可能您同时安装了pip版本和github版本的本程序,修改的是后者的代码。如果存在两个版本,程序默认执行pip版本,所以其它版本的修改不起作用。

运行 scrapy crawl search -s JOBDIR=crawls/search 获取你想要的数据。

终端运行

程序调用的微博搜索,如果微博搜索结果不一致就会出现上面的情况。可以修改pipelines.py最后的方法,如果不包含关键词就drop。

@vivianlvvv 程序模仿了s.weibo.com搜索,它是什么结果就获取什么,不确定是否包含评论。

您可以修改search.py的最后一个方法,这里就是获取属性的,可以按需求加上该属性的获取,然后修改pipelines.py文件,这里是所有的写入方式,可以修改需要的写入来添加新属性。

您可以仿造search.py页面跳转写。

我现在不方便调试,如果不能获取link,怀疑link=后面的代码没有匹配到url