aigc_serving
aigc_serving copied to clipboard
能否对 serving/model_handler 下模型的infer.py 继续解耦
能否对 serving/model_handler 下模型的infer.py 继续解耦。 最终实现用户可以用 自己的 方式 实现 。 chat_stream chat embedding (类似于抽象方法) 等方法 就可以,就可以 run 此服务
这个优先级相对低点, 等实现了key value cache 之后在进行。
这个优先级相对低点, 等实现了key value cache 之后在进行。
KV cache 技术 transformers已经默认集成了 只需要 在 config.json文件中 设置 use_cache=True 就可以了
对,这个方案缺点是会极大消耗显存 , 正在研究 streaming_llm的方案。