Kang Anmin
Results
1
comments of
Kang Anmin
我也刚刚遇到这个问题。个人认为也许是代码逻辑里有不太合理的地方(算不上bug)。 比如说我一个epoch是50 steps,设置了训练2 epochs,也就是100 steps。 我设置每save_steps=32,即每32 steps保存一次checkpoint。 最终会发现在32、64、96 steps处都保存了完整的checkpoint(即包含bin参数文件),但是并不会保存100 steps完全训练完成时的bin文件。 这个地方就需要我们自己确定save_steps可以被总steps数整除,才能确保训练完成时会生成一个checkpoint。这对直接设置训练epochs数(而不是steps数)的用户来说,并不方便。