transformers_tasks icon indicating copy to clipboard operation
transformers_tasks copied to clipboard

playground推理过慢

Open nieallen opened this issue 1 year ago • 2 comments

请问playground每次generate都要加载一次模型?怎么改可以使速度变快一些呢?

nieallen avatar Apr 12 '23 03:04 nieallen

Hi,正常来讲当前 playground 应该只会加载一次模型,只有在刷新页面的时候才会重新加载模型。

我在 这里 进行了模型的缓存,只有当刷新页面(清除缓存)后才会重新加载。

生成速度慢可能有两个原因:

  1. 要求模型生成的文本过长,这将会延长模型推理时间。
  2. 使用 LoRA 加载,而非原始模型加载,这也可能会小部分影响推理时延。您可以使用最新的代码训练模型,模型在保存时将会保存为原始模型的结构(而非 LoRA Adaptor)。

HarderThenHarder avatar Apr 12 '23 06:04 HarderThenHarder

感谢,已解决。请问后面会实现一下基于bloom或者glm的sft训练代码吗?

nieallen avatar Apr 12 '23 09:04 nieallen