steamfeifei comments

Results 7 comments of


                                            steamfeifei

为什么推理速度会随着会话增多，逐渐变慢？

同问

为什么推理速度会随着会话增多，逐渐变慢？

我修改了use_fast=True，仍然是速度很慢啊

为什么推理速度会随着会话增多，逐渐变慢？

> model.chat(tokenizer, messages, stream=True) 改为 model.chat(tokenizer, messages[-6:], stream=True) > > 限制输出token 哈哈，一样的想法，但是这个还受到chat回复内容量的影响。感觉可以出个动态规则。希望官方出一个更好的策略，参考chatglm2就行

为什么推理速度会随着会话增多，逐渐变慢？

> 现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化 messages[-6:]。messages[-2:] 你用了几块GPU，8bit的，我这一块跑不起来

为什么推理速度会随着会话增多，逐渐变慢？

> > > 现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化 messages[-6:]。messages[-2:] > > > > > > 你用了几块GPU，8bit的，我这一块跑不起来 > > 一块32G的，运行8bit能跑额我这是3090 24G的，一块还跑不起来

为什么推理速度会随着会话增多，逐渐变慢？

> > > > 现在输入6条历史记录，你可以限制更少。我在4090上挺快的，8位量化 messages[-6:]。messages[-2:] > > > > > > > > > 你用了几块GPU，8bit的，我这一块跑不起来 > > > > > > 一块32G的，运行8bit能跑 > > 额我这是3090 24G的，一块还跑不起来多卡又跑不起来了，无论8b还是4b的 `Expected...

为什么推理速度会随着会话增多，逐渐变慢？

> 开头设置环境，指定卡index os.environ["CUDA_VISIBLE_DEVICES"] = "3,4,5"