aimi0914
aimi0914
Qwen1.5-14B-Chat 用的14B的,一样的问题,非流式生成会截断,流式的话就是正常的,fastchat+vllm部署的,换成baichuan就没问题
> @1920853199 您好,可以提供一下vllm版本吗? 这个有可能是[vllm-project/vllm#3034](https://github.com/vllm-project/vllm/issues/3034)导致的,在[vllm-project/vllm#3016](https://github.com/vllm-project/vllm/pull/3016)中修复,该修复已并入vllm-0.3.3版本;您可以尝试下这个版本。 升级可以了,不过低版本的vllm,用百川的模型就不会出现截断的问题,这是vllm的问题还是qwen和baichuan的差异呢
> > > @1920853199 您好,可以提供一下vllm版本吗? 这个有可能是[vllm-project/vllm#3034](https://github.com/vllm-project/vllm/issues/3034)导致的,在[vllm-project/vllm#3016](https://github.com/vllm-project/vllm/pull/3016)中修复,该修复已并入vllm-0.3.3版本;您可以尝试下这个版本。 > > > > > > 升级可以了,不过低版本的vllm,用百川的模型就不会出现截断的问题,这是vllm的问题还是qwen和baichuan的差异呢 > > 如果您使用的是fastchat + vllm部署的话,这个是因为在fastchat的[Conversation](https://github.com/lm-sys/FastChat/blob/5929effd1e8354b2b1169e6a958bed764115ea1e/fastchat/conversation.py#L1081)中,baichuan2未设置`stop_token_ids`和`stop_str`,而qwen和yi等模型设置了这两个值,因此会受到这个bug的影响。(对话模板如此配置的具体原因,可以参考链接代码中指向的各个config配置文件)。 thanks!