lmdeploy
lmdeploy copied to clipboard
[Feature] lmdeploy0.1.0,启动后显存占用较大,是什么原因?
Motivation
llama-13B使用lmdeploy和transformers分别加载后,显存占用差距较大,请问lmdeploy启动后做了哪些事情,占用了这部分显存?
Related resources
No response
Additional context
No response
预先为kv cache分配的缓存
预先为kv cache分配的缓存
请问这个预先缓存总的大小是怎么计算的呢?
https://lmdeploy.readthedocs.io/en/latest/inference/pipeline.html#usage
使用的是 lmdeploy 的哪个接口呢?
使用的是 lmdeploy 的哪个接口呢?
创建的AsyncEngine的一个实例,实例化后显存就挺大,session_len调成8K后,llama2-7B有26G+。推理时使用的generate方法。