Chen Lei
Chen Lei
可能和目标账号有关,某些类型的微博限制比较严。您可以修改spider.py,把range(1, page_num + 1)改成range(20, page_num + 1),这样程序就会从20页开始获取。
@2937317664 有可能您同时安装了pip版本和github版本的本程序,修改的是后者的代码。如果存在两个版本,程序默认执行pip版本,所以其它版本的修改不起作用。
运行 scrapy crawl search -s JOBDIR=crawls/search 获取你想要的数据。
终端运行
参考 #473
程序调用的微博搜索,如果微博搜索结果不一致就会出现上面的情况。可以修改pipelines.py最后的方法,如果不包含关键词就drop。
@vivianlvvv 程序模仿了s.weibo.com搜索,它是什么结果就获取什么,不确定是否包含评论。
您可以修改search.py的最后一个方法,这里就是获取属性的,可以按需求加上该属性的获取,然后修改pipelines.py文件,这里是所有的写入方式,可以修改需要的写入来添加新属性。
您可以仿造search.py页面跳转写。
我现在不方便调试,如果不能获取link,怀疑link=后面的代码没有匹配到url