transformers_tasks playground推理过慢

playground推理过慢

Open nieallen opened this issue 1 year ago • 2 comments

请问playground每次generate都要加载一次模型？怎么改可以使速度变快一些呢？

Apr 12 '23 03:04 nieallen

Hi，正常来讲当前 playground 应该只会加载一次模型，只有在刷新页面的时候才会重新加载模型。

我在这里进行了模型的缓存，只有当刷新页面（清除缓存）后才会重新加载。

生成速度慢可能有两个原因：

要求模型生成的文本过长，这将会延长模型推理时间。
使用 LoRA 加载，而非原始模型加载，这也可能会小部分影响推理时延。您可以使用最新的代码训练模型，模型在保存时将会保存为原始模型的结构（而非 LoRA Adaptor）。

Apr 12 '23 06:04 HarderThenHarder

感谢，已解决。请问后面会实现一下基于bloom或者glm的sft训练代码吗？

Apr 12 '23 09:04 nieallen