feapder icon indicating copy to clipboard operation
feapder copied to clipboard

海量数据去重-dedup - feapder-document

Open Boris-code opened this issue 4 years ago • 8 comments
trafficstars

https://boris.org.cn/feapder/#/source_code/dedup

Description

Boris-code avatar Mar 07 '21 13:03 Boris-code

好骚~

CZW-1122 avatar Mar 22 '21 08:03 CZW-1122

@CZW-1122 好骚~

么么哒

Boris-code avatar Mar 22 '21 09:03 Boris-code

数据入了一次库,我清库后,想再入一次,但是一直提示重复数据,清了redis dedup key, 还是没用。 想请问,入库去重信息缓存在哪里,该怎么清掉呢?

calior avatar Aug 12 '21 08:08 calior

@calior 数据入了一次库,我清库后,想再入一次,但是一直提示重复数据,清了redis dedup key, 还是没用。 想请问,入库去重信息缓存在哪里,该怎么清掉呢?

就只存redis里了

Boris-code avatar Aug 12 '21 08:08 Boris-code

@calior 数据入了一次库,我清库后,想再入一次,但是一直提示重复数据,清了redis dedup key, 还是没用。 想请问,入库去重信息缓存在哪里,该怎么清掉呢?

就只存redis里了

那就很奇怪,在写item的时候,总是提示数据重复,写入为0,换了个redis,表也删了,就差没重启机器了。

calior avatar Aug 12 '21 09:08 calior

FloomFilter有bug

xiaoyueinfo avatar May 13 '22 13:05 xiaoyueinfo

开启去重后,相应的key得手动删除,使用delete_keys="*"无效

dream2333 avatar Jun 23 '22 19:06 dream2333

@dream2333 开启去重后,相应的key得手动删除,使用delete_keys="*"无效

因为去重库默认是共用的,多个爬虫在一个池子里去重,目的是为了节省空间 因为永久去重不管是去重一条数据还是去重一亿数据,都需要先开辟一定的空间(285MB),若每个项目都开个空间,那么会浪费很多内存

Boris-code avatar Jun 24 '22 08:06 Boris-code