能否对 serving/model_handler 下模型的infer.py 继续解耦

Open shell-nlp opened this issue 2 years ago • 3 comments

能否对 serving/model_handler 下模型的infer.py 继续解耦。最终实现用户可以用自己的方式实现。 chat_stream chat embedding （类似于抽象方法）等方法就可以，就可以 run 此服务

Dec 03 '23 14:12 shell-nlp

这个优先级相对低点，等实现了key value cache 之后在进行。

Dec 03 '23 14:12 ssbuild

这个优先级相对低点，等实现了key value cache 之后在进行。

KV cache 技术 transformers已经默认集成了只需要在 config.json文件中设置 use_cache=True 就可以了

Dec 04 '23 03:12 shell-nlp

对，这个方案缺点是会极大消耗显存，正在研究 streaming_llm的方案。

Dec 04 '23 04:12 ssbuild