weibo-search icon indicating copy to clipboard operation
weibo-search copied to clipboard

更换setting之后依然爬出之前的结果

Open LOUISELUO2023 opened this issue 2 years ago • 7 comments

开始时无论怎么更换search名字都是抓取到相同的300条后自动停止。按照#66 替换了代码,更改了cookie,更改了setting里的日期,删除了原来的结果文件和crawl文件,但爬出来的依然是一开始的300条。请问可能是哪里有问题?

LOUISELUO2023 avatar Nov 23 '23 15:11 LOUISELUO2023

后面又跑了一次,这次出来的有新的微博,但是日期不是按照setting里面的设置爬取的

LOUISELUO2023 avatar Nov 23 '23 15:11 LOUISELUO2023

使用scrapy crawl search运行看看。

dataabc avatar Nov 23 '23 17:11 dataabc

使用scrapy crawl search运行看看。

刚刚试了一下,scrapy crawl search和scrapy crawl search -s JOBDIR=crawls/search的结果没有差别,依然不按setting来

LOUISELUO2023 avatar Nov 24 '23 02:11 LOUISELUO2023

大佬您好,我遇到类似的问题。 代码设置是:根据#66修改了代码,文件夹内crawls 删掉,并在settings里面时间范围2022年根据限定keyword_list.txt爬取 1) 首先用scrapy crawl search -s JOBDIR=crawls/search ,代码只会跳转到爬取2023年7月或者9月的几条包含关键词的微博,然后陷入了循环重复地爬取这几条。 2)其次,在原来文件夹的路径用scrapy crawl search ,代码一开始会爬取2022年范围内的微博,可是运行了一段时间后,代码跳转到爬取2023年7月或者9月的几条微博(和(1)一样的那几条) ,然后再偶尔爬回2022年范围内的微博,有陷入循环的趋势。越到后面,越只会爬2023年的那几条微博(和(1)一样的那几条)

请问大佬这个问题应该怎么解决呀?需要对python 代码改写吗?非常感谢您!

zeldazhu6 avatar Nov 24 '23 07:11 zeldazhu6

这种我也不清楚,不确定是不是没有读取最新配置,真奇怪。

dataabc avatar Nov 24 '23 17:11 dataabc

@zeldazhu6 1的命令行是按进度执行上次的搜索,所以才这样。2确定起止日期都是2022吗?程序模拟的是微博网页的搜索,可能是搜索结果就包含2023的,我也不知道原因。如果不想要某些日期的微博,可以修改pipelines.py文件最后一个方法,这个方法是筛选微博的。

dataabc avatar Nov 24 '23 17:11 dataabc

@zeldazhu6 1的命令行是按进度执行上次的搜索,所以才这样。2确定起止日期都是2022吗?程序模拟的是微博网页的搜索,可能是搜索结果就包含2023的,我也不知道原因。如果不想要某些日期的微博,可以修改pipelines.py文件最后一个方法,这个方法是筛选微博的。

谢谢大佬答复!~ 反馈一下,原本出现了日期跳转的keyword_list.txt 里面包含了中文和英文的关键词,一共有17个。后面把keyword_list.txt 里面的关键词删到只有7个中文关键词,设置爬取日期一个月,就没有出现上述日期跳转的情况了。

非常感谢作者大佬的帮助~😊❤️

zeldazhu6 avatar Nov 25 '23 03:11 zeldazhu6