zeldazhu6
zeldazhu6
大佬您好,我遇到类似的问题。 代码设置是:根据#66修改了代码,文件夹内crawls 删掉,并在settings里面时间范围2022年根据限定keyword_list.txt爬取 1) 首先用scrapy crawl search -s JOBDIR=crawls/search ,代码只会跳转到爬取2023年7月或者9月的几条包含关键词的微博,然后陷入了循环重复地爬取这几条。 2)其次,在原来文件夹的路径用scrapy crawl search ,代码一开始会爬取2022年范围内的微博,可是运行了一段时间后,代码跳转到爬取2023年7月或者9月的几条微博(和(1)一样的那几条) ,然后再偶尔爬回2022年范围内的微博,有陷入循环的趋势。越到后面,越只会爬2023年的那几条微博(和(1)一样的那几条) 请问大佬这个问题应该怎么解决呀?需要对python 代码改写吗?非常感谢您!
> @zeldazhu6 1的命令行是按进度执行上次的搜索,所以才这样。2确定起止日期都是2022吗?程序模拟的是微博网页的搜索,可能是搜索结果就包含2023的,我也不知道原因。如果不想要某些日期的微博,可以修改pipelines.py文件最后一个方法,这个方法是筛选微博的。 谢谢大佬答复!~ 反馈一下,原本出现了日期跳转的keyword_list.txt 里面包含了中文和英文的关键词,一共有17个。后面把keyword_list.txt 里面的关键词删到只有7个中文关键词,设置爬取日期一个月,就没有出现上述日期跳转的情况了。 非常感谢作者大佬的帮助~😊❤️