Yilun Huang comments

Results 39 comments of


                                            Yilun Huang

The results are different after two searches

Hi @XA-hyy , It's normal to get different structures after each search process due to it evolves random mutations.

filter是否支持batch处理，以及怎么设置batch_size？

> batch的开销有什么呢？内存占用？是的，内存是一个点，并行度相同的情况下，batch size越大，同时在处理的数据越多，内存占用可能越大。目前大部分Filter算子能力暂时都只支持单样本依次处理，增加batch size带来的加速空间相对来说没有那么大，在内存等资源允许的情况下，不如增大并行度np。此外，部分Mapper为batched OP的原因主要为这些Mapper是用来进行数据增强或者数据生成的，因此不同于普通Mapper的1->1的映射过程，它需要一个1->N映射过程，我们这里使用batch化来支持这种新类型。

Potential performance Issue: Slow read_csv() Function with pandas 2.0.0

Hi @TendouArisu , thanks for your attention and suggestions! We have conducted a few experiments and proved what you said. We limited pandas to 2.0.0 mainly because: 1. pandas >=...

hash calculate in ray deduplicator

Hi, thanks for your attention! We are working on the distributed version of minhash & simhash for Ray mode, which is not very easy though. Please stay tuned. For now,...

stopwords_filter 为什么是过滤掉小于某个阈值的样本

嗨 @noforit ，感谢你对data-juicer的关注与使用！ stopwords_filter在实现时的本意为根据停用词比例筛除一些搜索引擎处理过的文本。一般情况下，搜索引擎为了提升搜索效率等原因，会将一个文档中的停用词删除后再建立索引，但删除停用词的文档的语义信息会被破坏，在LLM的训练数据中会被认为是质量相对较低的文本。所以这个算子会将停用词比例较低的样本过滤掉。但你说的也是正确的，停用词比例较高的样本也是质量较低的。stopwords_filter算子其实功能上有一个互补的算子，叫flagged_words_filter，它的本意是将敏感词比例过高的样本滤除。它们俩都可以指定词表，因此它们的更广泛用法为将感兴趣的某类词的比例过高或者过低的样本滤除。比如针对你所说的情况，我们可以加上一个flagged_words_filter，词表设置为停用词词表，这时就会把停用词比例过高的样本也筛除了。如你还有进一步的疑问，欢迎随时与我们交流~

为什么大部分的refined recipe都是用simhash去重？

嗨 @sherrytonger 感谢你对data-juicer的关注与使用~ 我们在初期发布的data-juicer recipes中，的确基本都是使用simhash进行去重的，最主要的原因就是你提到的效率优势，因为那时data-juicer面向的用户主要还是大部分的普通用户，他们通常只能进行单机处理，因此在处理较大的数据集的时候，高效以及资源占用较低就成了simhash的优势；我们在初期也是优先支持了simhash去重。当然，后续我们也补充上了minhash单机去重以及分布式去重的能力，用户也可以根据自己的资源情况以及去重效果需求选择合适的去重算法~

Yilun Huang