Yilun Huang
Yilun Huang
Hi @XA-hyy , It's normal to get different structures after each search process due to it evolves random mutations.
> batch的开销有什么呢?内存占用? 是的,内存是一个点,并行度相同的情况下,batch size越大,同时在处理的数据越多,内存占用可能越大。 目前大部分Filter算子能力暂时都只支持单样本依次处理,增加batch size带来的加速空间相对来说没有那么大,在内存等资源允许的情况下,不如增大并行度np。 此外,部分Mapper为batched OP的原因主要为这些Mapper是用来进行数据增强或者数据生成的,因此不同于普通Mapper的1->1的映射过程,它需要一个1->N映射过程,我们这里使用batch化来支持这种新类型。
Hi @TendouArisu , thanks for your attention and suggestions! We have conducted a few experiments and proved what you said. We limited pandas to 2.0.0 mainly because: 1. pandas >=...
Hi, thanks for your attention! We are working on the distributed version of minhash & simhash for Ray mode, which is not very easy though. Please stay tuned. For now,...
嗨 @noforit ,感谢你对data-juicer的关注与使用! stopwords_filter在实现时的本意为根据停用词比例筛除一些搜索引擎处理过的文本。一般情况下,搜索引擎为了提升搜索效率等原因,会将一个文档中的停用词删除后再建立索引,但删除停用词的文档的语义信息会被破坏,在LLM的训练数据中会被认为是质量相对较低的文本。所以这个算子会将停用词比例较低的样本过滤掉。 但你说的也是正确的,停用词比例较高的样本也是质量较低的。stopwords_filter算子其实功能上有一个互补的算子,叫flagged_words_filter,它的本意是将敏感词比例过高的样本滤除。它们俩都可以指定词表,因此它们的更广泛用法为将感兴趣的某类词的比例过高或者过低的样本滤除。比如针对你所说的情况,我们可以加上一个flagged_words_filter,词表设置为停用词词表,这时就会把停用词比例过高的样本也筛除了。 如你还有进一步的疑问,欢迎随时与我们交流~
嗨 @sherrytonger 感谢你对data-juicer的关注与使用~ 我们在初期发布的data-juicer recipes中,的确基本都是使用simhash进行去重的,最主要的原因就是你提到的效率优势,因为那时data-juicer面向的用户主要还是大部分的普通用户,他们通常只能进行单机处理,因此在处理较大的数据集的时候,高效以及资源占用较低就成了simhash的优势;我们在初期也是优先支持了simhash去重。 当然,后续我们也补充上了minhash单机去重以及分布式去重的能力,用户也可以根据自己的资源情况以及去重效果需求选择合适的去重算法~
@HaleYang 你好,感谢你对data-juicer的关注与使用! 我们本地并没能复现出你上面遇到的问题,如果你可以提供更多信息的话,可以帮助我们更快更精确定位到你遇到的问题~ 更多对定位问题有帮助的信息包括: - data-juicer的安装方式:源码/pip/...... - data-juicer版本 - Python版本 - 运行时所执行的命令 - 日志中的报错信息 - 所处理的数据集样本示例 - 其他你认为可能有帮助的信息 请你看你的方便选择性提供上述信息,谢谢~
请参考单测日志对照失败样例尝试修复代码或者更新单测样例 [link](https://github.com/modelscope/data-juicer/actions/runs/10971757071/job/30519704619?pr=432)
嗨 @user2311717757 ,感谢你对 Data-Juicer 的关注与使用! 比赛结束后,我们为系列赛开放了日常学习赛,那里可以获取到数据等相关资料并继续提交结果参与打榜,其中7B赛道的比赛地址为:https://tianchi.aliyun.com/competition/entrance/532291?spm=a2c22.12281976.0.0.15a638969XbMsh 欢迎进行尝试~
Close this stale issue.