Chen Lei
Chen Lei
先判断info类型,数组就使用上面的代码,否则单独处理。这是我目前想到的,不一定是最佳。
都有,一般来说,过一段时间会自动解除限制。
可能要添加cookie。
使用scrapy crawl search运行看看。
这种我也不清楚,不确定是不是没有读取最新配置,真奇怪。
@zeldazhu6 1的命令行是按进度执行上次的搜索,所以才这样。2确定起止日期都是2022吗?程序模拟的是微博网页的搜索,可能是搜索结果就包含2023的,我也不知道原因。如果不想要某些日期的微博,可以修改pipelines.py文件最后一个方法,这个方法是筛选微博的。
这个我也不清楚,可能和进度文件有关,直接使用scrapy crawl search 看看。如果不写入CSV,可能是重复爬取了,换mysql也一样,可以参考 #66 。
添加cookie看看。
是不是运行时删除了某些文件夹?
感谢反馈。我现在没法调试,也没有特别好的办法。