Chen Lei
Chen Lei
@hsm11233 这个和天没关系,因为最多50页左右,设置51,就可能最多获取50页,不在细分。程序默认就是按天爬取的,只不过可能异步执行了不同日期,如果想一天爬取完成再爬另一天,只是在settings.py里把日期一天一天的设置,即爬完一天,再设置另一天。
感谢建议。 1.程序是边运行边获取下一页的,不知道总量,无法获得进度; 2.这个建议很好,其实也可以为每个关键词建立文件夹,把得到的内容放到对应文件夹下,这样文件名就不用包含关键词了,更清晰,可以通过修改pipelines.py完成,目前我没有时间弄这些,您可以自己修改,文件包含了所有文件的操作,应该不难; 3.这个没有计划,因为很多网友默认配置就有可能被限制,可能是和获取的数量有关吧,不确定,所以不会添加这个特性,望理解。 再次感谢您的建议。
感谢反馈。我现在不方便调试,您可以尝试修改search.py,把 avator = sel.xpath这行(大约在539行)及其之后的代码整体往后移动一个空格,看看有没有效果。
@Xxiaojinyi 是不是不小心把结果文件夹删除了?
@verazzz5 这个我也不确定,程序模仿的是,如果这里可以应该就可以。
感谢反馈。尽量把since_date参数设置成now,其它值会漏爬,或者使用免cookie版(最好添加有效cookie)。
应该是接口限制,换成weibo-crawler看看。
是的,具体可以看它的readme文档。这个是免cookie版,不加cookie也可以运行,但是很多时候没有cookie爬不全,所以要添加有效cookie。
换成github版本看看。
@Shanxi123456 已在 #673 回复您了。