easy-dataset icon indicating copy to clipboard operation
easy-dataset copied to clipboard

拆分数据集不够精细

Open Do-tech-ai opened this issue 7 months ago • 5 comments

我已经把块的大小和覆盖设置到,500,50,这个数值已经是最小了,按着换行分分割,但是实际拆分后的数据并不是一条一条的,而是3-4条放在一推分成1条,我想问一下,能不能把数据集拆分的精细,或者可以把写块大小的代码位置告诉吗,我直接修改代码也行

Do-tech-ai avatar Jun 12 '25 01:06 Do-tech-ai

可以尝试配置自定义分隔符,或者尝试可视化自定义分块 https://docs.easy-dataset.com/jin-jie-shi-yong/editor

ConardLi avatar Jun 12 '25 06:06 ConardLi

可以尝试配置自定义分隔符,或者尝试可视化自定义分块 https://docs.easy-dataset.com/jin-jie-shi-yong/editor

感谢解惑,问题已经得到改善

Do-tech-ai avatar Jun 13 '25 01:06 Do-tech-ai

可以尝试配置自定义分隔符,或者尝试可视化自定义分块 https://docs.easy-dataset.com/jin-jie-shi-yong/editor

感谢解惑,问题已经得到改善

怎么设置的?我试了多种方式都不行

jwen6118 avatar Jun 20 '25 03:06 jwen6118

我是写了个脚本,把杂乱的数据,清洗成预训练,然后根据换行符,或者你在文本里面自定义一个符号进行拆分

---原始邮件--- 发件人: @.> 发送时间: 2025年6月20日(周五) 中午11:53 收件人: @.>; 抄送: @.@.>; 主题: Re: [ConardLi/easy-dataset] 拆分数据集不够精细 (Issue #409)

jwen6118 left a comment (ConardLi/easy-dataset#409)

可以尝试配置自定义分隔符,或者尝试可视化自定义分块 https://docs.easy-dataset.com/jin-jie-shi-yong/editor

感谢解惑,问题已经得到改善

怎么设置的?我试了多种方式都不行

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Do-tech-ai avatar Jun 20 '25 04:06 Do-tech-ai

我是写了个脚本,把杂乱的数据,清洗成预训练,然后根据换行符,或者你在文本里面自定义一个符号进行拆分

请把这部分贡献给作者

vss80p585 avatar Jul 25 '25 01:07 vss80p585