zeldazhu6 comments

Results 2 comments of


                                            zeldazhu6

更换setting之后依然爬出之前的结果

大佬您好，我遇到类似的问题。代码设置是：根据#66修改了代码，文件夹内crawls 删掉，并在settings里面时间范围2022年根据限定keyword_list.txt爬取 1）首先用scrapy crawl search -s JOBDIR=crawls/search ，代码只会跳转到爬取2023年7月或者9月的几条包含关键词的微博，然后陷入了循环重复地爬取这几条。 2）其次，在原来文件夹的路径用scrapy crawl search ，代码一开始会爬取2022年范围内的微博，可是运行了一段时间后，代码跳转到爬取2023年7月或者9月的几条微博（和（1）一样的那几条），然后再偶尔爬回2022年范围内的微博，有陷入循环的趋势。越到后面，越只会爬2023年的那几条微博（和（1）一样的那几条）请问大佬这个问题应该怎么解决呀？需要对python 代码改写吗？非常感谢您！

更换setting之后依然爬出之前的结果

> @zeldazhu6 1的命令行是按进度执行上次的搜索，所以才这样。2确定起止日期都是2022吗？程序模拟的是微博网页的搜索，可能是搜索结果就包含2023的，我也不知道原因。如果不想要某些日期的微博，可以修改pipelines.py文件最后一个方法，这个方法是筛选微博的。谢谢大佬答复！～反馈一下，原本出现了日期跳转的keyword_list.txt 里面包含了中文和英文的关键词，一共有17个。后面把keyword_list.txt 里面的关键词删到只有7个中文关键词，设置爬取日期一个月，就没有出现上述日期跳转的情况了。非常感谢作者大佬的帮助～😊❤️