steamfeifei
steamfeifei
我修改了use_fast=True,仍然是速度很慢啊
> model.chat(tokenizer, messages, stream=True) 改为 model.chat(tokenizer, messages[-6:], stream=True) > > 限制输出token 哈哈,一样的想法,但是这个还受到chat回复内容量的影响。感觉可以出个动态规则。 希望官方出一个更好的策略,参考chatglm2就行
> 现在输入6条历史记录,你可以限制更少。我在4090上挺快的,8位量化 messages[-6:]。messages[-2:] 你用了几块GPU,8bit的,我这一块跑不起来
> > > 现在输入6条历史记录,你可以限制更少。我在4090上挺快的,8位量化 messages[-6:]。messages[-2:] > > > > > > 你用了几块GPU,8bit的,我这一块跑不起来 > > 一块32G的,运行8bit能跑 额 我这是3090 24G的,一块还跑不起来
> > > > 现在输入6条历史记录,你可以限制更少。我在4090上挺快的,8位量化 messages[-6:]。messages[-2:] > > > > > > > > > 你用了几块GPU,8bit的,我这一块跑不起来 > > > > > > 一块32G的,运行8bit能跑 > > 额 我这是3090 24G的,一块还跑不起来 多卡又跑不起来了,无论8b还是4b的 `Expected...
> 开头设置环境,指定卡index os.environ["CUDA_VISIBLE_DEVICES"] = "3,4,5"