xbl916 comments

Results 16 comments of


                                            xbl916

[Bug]: vllm部署qwen3-30b-a3b输出中文乱码 [Badcase]: Qwen3-30B-A3B输出重复停不下来

确实，这个版本比较容易出现一直循环停不下来的问题比如 “背诵千字文全文” 有较大概率出现一直重复停下来的问题

[Bug]: vllm部署qwen3-30b-a3b输出中文乱码 [Badcase]: Qwen3-30B-A3B输出重复停不下来

> > 说100个福字福福福福...说200个喜字 > > 此类情况会引发该模型的异常行为。 > > 对于较大的模型，结果似乎很好：[https://chat.qwen.ai/s/697dd84c-536a-492a-85f3-93df45d3d1f3 ?fev=0.0.91](https://chat.qwen.ai/s/697dd84c-536a-492a-85f3-93df45d3d1f3?fev=0.0.91) > > > 事实上，这个版本比较容易出现一直循环停止不下来的问题，比如“背诵千字文全文”有越来越多的概率出现一直重复停止来的问题 > > 最好能提供你得到的结果和你实际使用的型号，这样我们就能获得更多信息，尤其是重复的类型。总的来说，Qwen3-30B-A3B 的质量不如 Qwen3-32B。 > > 我们将收集这些不良案例，以指导下一次迭代。现在，请尝试应用存在性惩罚（例如 1.5）或其他模型。我用的是Qwen3-30B-A3B gguf q4-q5的各种量化版本

[Bug]: vllm部署qwen3-30b-a3b输出中文乱码 [Badcase]: Qwen3-30B-A3B输出重复停不下来

> > 我用的是Qwen3-30B-A3B gguf q4-q5的各种量化版本 > > did you increase num_ctx or presence_penalty? 我后续按说明设置presence penalty 1.5之有明显改善，只有很低的概率会出现了

vLLM部署的GLM-4-32B-0414如何实现接口工具调用

我也想知道 emmm

vLLM部署的GLM-4-32B-0414如何实现接口工具调用

这是要在客户端调用的时候配置？ > 现在部分解决了问题，在使用openai库调用时， response = await self.client.chat.completions.create( model="gpt-3.5-turbo", messages=messages, tool_choice="required", tools=available_tools, temperature=0 ) 添加了tool_choice="required"，这是必须要选择最少一个tools。这样tool_calls就有值了。

合成的音频为什么会有提示词文本内容？

同上