Chinese-Vicuna icon indicating copy to clipboard operation
Chinese-Vicuna copied to clipboard

7B 模型单卡3090后处理非常耗时

Open f18298335152h opened this issue 2 years ago • 0 comments

我在3090上部署了7B得chat对话模型,在推理时我发现模型速度为0.3ms左右但是后处理token得时候,每隔token得耗时达到了2s,导致响应速度非常慢,我发现是for循环在迭代调用GenerationMixin时耗时非常就,请问这个怎么解决?

f18298335152h avatar Jun 29 '23 09:06 f18298335152h