Kang Anmin comments

Repositories
Issues
Comments

Results 1 comments of


                                            Kang Anmin

[BUG/Help] <微调训练完毕发现output文件夹中只有几个json文件后续怎么使用>

我也刚刚遇到这个问题。个人认为也许是代码逻辑里有不太合理的地方（算不上bug）。比如说我一个epoch是50 steps，设置了训练2 epochs，也就是100 steps。我设置每save_steps=32，即每32 steps保存一次checkpoint。最终会发现在32、64、96 steps处都保存了完整的checkpoint（即包含bin参数文件），但是并不会保存100 steps完全训练完成时的bin文件。这个地方就需要我们自己确定save_steps可以被总steps数整除，才能确保训练完成时会生成一个checkpoint。这对直接设置训练epochs数（而不是steps数）的用户来说，并不方便。