aigc_serving icon indicating copy to clipboard operation
aigc_serving copied to clipboard

能否对 serving/model_handler 下模型的infer.py 继续解耦

Open shell-nlp opened this issue 2 years ago • 3 comments

能否对 serving/model_handler 下模型的infer.py 继续解耦。 最终实现用户可以用 自己的 方式 实现 。 chat_stream chat embedding (类似于抽象方法) 等方法 就可以,就可以 run 此服务

shell-nlp avatar Dec 03 '23 14:12 shell-nlp

这个优先级相对低点, 等实现了key value cache 之后在进行。

ssbuild avatar Dec 03 '23 14:12 ssbuild

这个优先级相对低点, 等实现了key value cache 之后在进行。

KV cache 技术 transformers已经默认集成了 只需要 在 config.json文件中 设置 use_cache=True 就可以了

shell-nlp avatar Dec 04 '23 03:12 shell-nlp

对,这个方案缺点是会极大消耗显存 , 正在研究 streaming_llm的方案。

ssbuild avatar Dec 04 '23 04:12 ssbuild