ms-swift icon indicating copy to clipboard operation
ms-swift copied to clipboard

3.4.0版本的swift会过滤数据集,是什么因素导致?

Open llp1992 opened this issue 7 months ago • 3 comments

[INFO:swift] Dataset filtered, origin length: 1124869, filtered dataset length: 586472

swift版本号:3.4.0

3.4.0版本的swift会过滤数据集,是什么原因导致?2.6.0版本的swift不会过滤

llp1992 avatar Apr 28 '25 06:04 llp1992

命令行参数--truncation_strategy delete,样本的tokens超过max_length会被删除。

slin000111 avatar Apr 29 '25 06:04 slin000111

命令行参数--truncation_strategy delete,样本的tokens超过max_length会被删除。

不是超过max_length被删除的原因,而是dataset map处理的时候被delete的

llp1992 avatar Apr 29 '25 23:04 llp1992

你看看 上面的报错信息

过滤时候会打印

Jintao-Huang avatar Apr 29 '25 23:04 Jintao-Huang