bingo
bingo
需求背景: TGI适配lightllm,多卡加载模型的时候,用到几张卡就会有几个进程,并且每个进程都会完整的加载整个模型到内存中来。 当模型文件太大,比如65B以上的模型,使用8卡加载的话就会需要8*130G的内存,这显然是不合理的,会导致OOM。 解决办法: 可在lightllm中帮忙提供load_from_weight_dict(weight_dict) 接口。TGI层传入权重词典,一边加载一边释放内存,才能解决此问题。
issue: https://github.com/ModelTC/lightllm/issues/277
DDR size = 16GB ./main_qwen_npu -s 64 -c 1 -l 512 below is tail logs ` Memory Usage: 8910 MB(19036) at: execute graph: 94 chunk:1 execute qnn graph 95 model.layers.23.self_attn.or_split...