Chris comments

Results 6 comments of


                                            Chris

trafficstars

How to improve training efficiency and shorten training time

maybe deepspeed you can try

IndexError: piece id is out of range.

> yes. base model is llama-7b, and the version of transformers is 4.28 dev.

IndexError: piece id is out of range.

> I will try it. Thank you~

[BUG] <title>GPU只有一张卡利用率高，其他基本上没有用到

@jklj077 请问下为什么多卡推理时显存占用会比单卡占用的更多

[BUG] <title>GPU只有一张卡利用率高，其他基本上没有用到

> > 请问下为什么多卡推理时显存占用会比单卡占用的更多 > > 多卡有代价。 @jklj077 请问下那些多出来的显存具体是什么呀，因为算kv cache的话并不会有那么大的开销

[BUG] <title>GPU只有一张卡利用率高，其他基本上没有用到

> @ChrisXULC 你是多了多少？vLLM是会预分配显存的（实际没用那么多），通过gpu-memory-utilization可以调整。transformer多卡涉及pytorch的memory cache管理，也会越来越多（实际没用那么多）。 @jklj077 模型在进行推理（用model.chat)的时候，比如说用7b的模型推10000个tokens, 单卡显存占用29个G（包括模型），但是用多卡推理的时候（包括模型），发现每张卡都是10个G，其中一张卡占了70个G，我拿kv cache的公式去计算发现多卡推理的会比理论多了非常多