feapder
feapder copied to clipboard
海量数据去重-dedup - feapder-document
https://boris.org.cn/feapder/#/source_code/dedup
Description
好骚~
@CZW-1122 好骚~
么么哒
数据入了一次库,我清库后,想再入一次,但是一直提示重复数据,清了redis dedup key, 还是没用。 想请问,入库去重信息缓存在哪里,该怎么清掉呢?
@calior 数据入了一次库,我清库后,想再入一次,但是一直提示重复数据,清了redis dedup key, 还是没用。 想请问,入库去重信息缓存在哪里,该怎么清掉呢?
就只存redis里了
@calior 数据入了一次库,我清库后,想再入一次,但是一直提示重复数据,清了redis dedup key, 还是没用。 想请问,入库去重信息缓存在哪里,该怎么清掉呢?
就只存redis里了
那就很奇怪,在写item的时候,总是提示数据重复,写入为0,换了个redis,表也删了,就差没重启机器了。
FloomFilter有bug
开启去重后,相应的key得手动删除,使用delete_keys="*"无效
@dream2333 开启去重后,相应的key得手动删除,使用delete_keys="*"无效
因为去重库默认是共用的,多个爬虫在一个池子里去重,目的是为了节省空间 因为永久去重不管是去重一条数据还是去重一亿数据,都需要先开辟一定的空间(285MB),若每个项目都开个空间,那么会浪费很多内存