拆分数据集不够精细
我已经把块的大小和覆盖设置到,500,50,这个数值已经是最小了,按着换行分分割,但是实际拆分后的数据并不是一条一条的,而是3-4条放在一推分成1条,我想问一下,能不能把数据集拆分的精细,或者可以把写块大小的代码位置告诉吗,我直接修改代码也行
可以尝试配置自定义分隔符,或者尝试可视化自定义分块 https://docs.easy-dataset.com/jin-jie-shi-yong/editor
可以尝试配置自定义分隔符,或者尝试可视化自定义分块 https://docs.easy-dataset.com/jin-jie-shi-yong/editor
感谢解惑,问题已经得到改善
可以尝试配置自定义分隔符,或者尝试可视化自定义分块 https://docs.easy-dataset.com/jin-jie-shi-yong/editor
感谢解惑,问题已经得到改善
怎么设置的?我试了多种方式都不行
我是写了个脚本,把杂乱的数据,清洗成预训练,然后根据换行符,或者你在文本里面自定义一个符号进行拆分
---原始邮件--- 发件人: @.> 发送时间: 2025年6月20日(周五) 中午11:53 收件人: @.>; 抄送: @.@.>; 主题: Re: [ConardLi/easy-dataset] 拆分数据集不够精细 (Issue #409)
jwen6118 left a comment (ConardLi/easy-dataset#409)
可以尝试配置自定义分隔符,或者尝试可视化自定义分块 https://docs.easy-dataset.com/jin-jie-shi-yong/editor
感谢解惑,问题已经得到改善
怎么设置的?我试了多种方式都不行
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
我是写了个脚本,把杂乱的数据,清洗成预训练,然后根据换行符,或者你在文本里面自定义一个符号进行拆分 …
请把这部分贡献给作者