text-dedup icon indicating copy to clipboard operation
text-dedup copied to clipboard

text-dedup 去重效果怎么样

Open maoxiangyi opened this issue 1 year ago • 1 comments
trafficstars

text-dedup 去重效果怎么样 和huggingface的datarove项目有对比过吗

maoxiangyi avatar Jun 17 '24 10:06 maoxiangyi

感谢提问。两者去重的底层算法一致,效果应该看具体参数。本项目的表现可以参考README中的Benchmark结果。项目代码大部分来源于本人在BigScience和BigCode中的实验,而且主要的关注方向就是去重,而datatrove包含去重之外的数据清理逻辑,看个人喜好吧。我没有做过两者的实际对比。

ChenghaoMou avatar Jun 17 '24 10:06 ChenghaoMou

Stale issue message

github-actions[bot] avatar Aug 16 '24 17:08 github-actions[bot]