weibo-search icon indicating copy to clipboard operation
weibo-search copied to clipboard

CSV结果文件的 去重问题

Open Sudddddd opened this issue 2 years ago • 3 comments

大佬上午好,您的代码对我非常非常有帮助,在此感谢您。

想请问:爬虫运行结束后,输出的 CSV结果文件 里的正文内容是去重之后的内容吗?

Sudddddd avatar Dec 05 '23 04:12 Sudddddd

没有去重,微博正文内容是有重复的,可以再单独去重

2OUMERTH avatar Dec 05 '23 04:12 2OUMERTH

微博是去重的,但正文或许会重复,因为用户可能发布多条微博。如果想去重,可以修改pipelines.py文件最后的方法,这就是来去重的。

dataabc avatar Dec 05 '23 16:12 dataabc

好的,谢谢您,过后我去试一试

Sudddddd avatar Dec 06 '23 02:12 Sudddddd