Chris

Results 6 comments of Chris
trafficstars

> yes. base model is llama-7b, and the version of transformers is 4.28 dev.

> I will try it. Thank you~

@jklj077 请问下为什么多卡推理时显存占用会比单卡占用的更多

> > 请问下为什么多卡推理时显存占用会比单卡占用的更多 > > 多卡有代价。 @jklj077 请问下那些多出来的显存具体是什么呀,因为算kv cache的话并不会有那么大的开销

> @ChrisXULC 你是多了多少?vLLM是会预分配显存的(实际没用那么多),通过gpu-memory-utilization可以调整。transformer多卡涉及pytorch的memory cache管理,也会越来越多(实际没用那么多)。 @jklj077 模型在进行推理(用model.chat)的时候,比如说用7b的模型推10000个tokens, 单卡显存占用29个G(包括模型),但是用多卡推理的时候(包括模型),发现每张卡都是10个G,其中一张卡占了70个G,我拿kv cache的公式去计算 发现多卡推理的会比理论多了非常多