weibo-search
weibo-search copied to clipboard
CSV结果文件的 去重问题
大佬上午好,您的代码对我非常非常有帮助,在此感谢您。
想请问:爬虫运行结束后,输出的 CSV结果文件 里的正文内容是去重之后的内容吗?
没有去重,微博正文内容是有重复的,可以再单独去重
微博是去重的,但正文或许会重复,因为用户可能发布多条微博。如果想去重,可以修改pipelines.py文件最后的方法,这就是来去重的。
好的,谢谢您,过后我去试一试