xiaozhi-esp32 请教下qwen实时模型是如何实现的

Is your feature request related to a problem?

Hi, 非常不错的工作，感谢开源！有如下几个问题想请教下： 1.想请教下qwen实时模型是基于qwen系列哪个模型实现的？ 2.体验了小智官方服务器的响应，整个链路的延迟非常。但是我在我们的服务器上搭建了阿里qwen-turbo+豆包的湾湾小何（都是通过api访问的方式），延迟要1-2s。想请教下有没有什么优化建议？主要延迟似乎都在tts上。

Describe the solution you'd like.

No response

Describe alternatives you've considered.

No response

Additional context.

No response

May 12 '25 06:05 PotterSu

目前Qwen实时主要是 Qwen 2.5 72B。大模型性能主要看 TTFT 和 TPOT 这两个参数。

May 12 '25 06:05 78

好的，感谢大佬回复，我研究下，不懂再请教您

May 12 '25 06:05 PotterSu

“实时”相对于“非实时”，在部署优化、连接方式上有什么技巧和区别？

May 13 '25 02:05 openrz

“实时”相对于“非实时”，在部署优化、连接方式上有什么技巧和区别？

@78 同问。我在楼上大佬开源的xiaozhiserver上部署LLM+tts，响应延迟很高。想请教下： 1.你们的LLM模型是部署在服务器端本地的还是通过阿里api访问的?我通过阿里api访问延迟比较高，同样的qwen2.5-72b，延迟有1-2s。 2.你们也是调用了豆包的弯弯小何api接口吗，我调用了豆包的弯弯小何api，但是延迟有2s左右。还是tts是有其他的部署方式。感谢！

May 13 '25 04:05 PotterSu

“实时”相对于“非实时”，在部署优化、连接方式上有什么技巧和区别？

@78 同问。我在楼上大佬开源的xiaozhiserver上部署LLM+tts，响应延迟很高。想请教下： 1.你们的LLM模型是部署在服务器端本地的还是通过阿里api访问的?我通过阿里api访问延迟比较高，同样的qwen2.5-72b，延迟有1-2s。 2.你们也是调用了豆包的弯弯小何api接口吗，我调用了豆包的弯弯小何api，但是延迟有2s左右。还是tts是有其他的部署方式。感谢！

国内云厂商目前还没有提供实时响应的API，可以考虑私有化部署。TTS使用流式接口。

May 13 '25 09:05 78

“实时”相对于“非实时”，在部署优化、连接方式上有什么技巧和区别？

@78 同问。我在楼上大佬开源的xiaozhiserver上部署LLM+tts，响应延迟很高。想请教下： 1.你们的LLM模型是部署在服务器端本地的还是通过阿里api访问的?我通过阿里api访问延迟比较高，同样的qwen2.5-72b，延迟有1-2s。 2.你们也是调用了豆包的弯弯小何api接口吗，我调用了豆包的弯弯小何api，但是延迟有2s左右。还是tts是有其他的部署方式。感谢！

国内云厂商目前还没有提供实时响应的API，可以考虑私有化部署。TTS使用流式接口。

好的非常感谢大佬回复！我之前试了在我们服务器上部署xiaozhi-server项目，访问本地ollama部署的qwen3-4b，延迟仍然很高有500ms-1s。不确定是不是跟我们服务器的算力有关系（RTX5000）。如果大佬方便的话，可以简单透露下我们这么做是否是对的： 1.我们的服务器是不是算力太低了，应该换个算力高点儿的服务器，比如A100？或者建议的服务器配型。 2.通过ollama的方式部署在本地，然后服务端去访问本地的ollama端口这种方式是否可取。还是最好通过代码的方式直接load模型推理

May 14 '25 04:05 PotterSu

服务器推理部署应该是用vllm或者sglang，ollama不适合做这些。你需要Hopper架构之后的GPU才能用的上大模型的推理优化。

May 14 '25 06:05 78

你需要Hopper架构之后的GPU才能用的上大模型的推理优化。

好的，我研究一下，感谢分享！

May 14 '25 06:05 PotterSu

@PotterSu 可以尝试使用gpustack部署llm，操作比较简单，支持vllm多机多卡部署

May 14 '25 08:05 HiCoderMonkey

你需要Hopper架构之后的GPU才能用的上大模型的推理优化。

好的，我研究一下，感谢分享！

后来有实现吗，现在延迟多快了

May 20 '25 10:05 youisan

不只是延遲優化, 還有多國語言都達成, 真的牛

May 25 '25 17:05 xljeff

@PotterSu 老哥，我们这用户说完话，觉得小智反应了些时间才翻译完成，再发给大模型，再TTS 返回语音。我觉得 ASR 和 VAD 的延迟很明显，为什么你们搭建的觉的ASR+VAD 延迟可以忽略了？

我们想搭建一个延迟在1s 左右的，尽可能延迟少的，具体该怎么做： ASR、？ VAD、？ TTS，用火山的？ LLM 找阿里的 qwen2.5-72b ？

Jun 26 '25 02:06 jkwang-a

这是来自QQ邮箱的假期自动回复邮件。您好，您的邮件我已收到。我将在短时间内，尽快给您回复。如有急事请拨打18646308557

Jun 26 '25 02:06 PotterSu

@PotterSu 老哥，我们这用户说完话，觉得小智反应了些时间才翻译完成，再发给大模型，再TTS 返回语音。我觉得 ASR 和 VAD 的延迟很明显，为什么你们搭建的觉的ASR+VAD 延迟可以忽略了？

我们想搭建一个延迟在1s 左右的，尽可能延迟少的，具体该怎么做： ASR、？ VAD、？ TTS，用火山的？ LLM 找阿里的 qwen2.5-72b ？

如果云厂商没有提供低延迟的大模型API，个人使用的话可以考虑本地部署。72b需要8张3090，qwen3 32b需要4张3090

Jun 26 '25 10:06 78

我这边也自己基于开源server搭了一套，tts也用的豆包的湾湾小何，延时也很大，楼主后来解决了吗

Jul 11 '25 03:07 aeolus21

这是来自QQ邮箱的假期自动回复邮件。您好，您的邮件我已收到。我将在短时间内，尽快给您回复。如有急事请拨打18646308557

Jul 11 '25 03:07 PotterSu

用火山的tts 基本在300ms 很快。llm用阿里新出的qwen3基础上的 truber-latest模型也很快一般问题llm+tts 在500-700ms左右，现在主要是asr 我用的豆包，还可以吧总的下来1s左右发自我的手机-------- 原始邮件 --------发件人： aeolus21 @.>日期： 2025年7月11日周五中午11:31收件人： 78/xiaozhi-esp32 @.>抄送： trberc @.>, Comment @.>主题： Re: [78/xiaozhi-esp32] 请教下qwen实时模型是如何实现的 (Issue #605)aeolus21 left a comment (78/xiaozhi-esp32#605) 我这边也自己基于开源server搭了一套，tts也用的豆包的湾湾小何，延时也很大，楼主后来解决了吗

—Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you commented.Message ID: @.***>

Jul 11 '25 03:07 jkwang-a

用火山的tts 基本在300ms 很快。llm用阿里新出的qwen3基础上的 truber-latest模型也很快一般问题llm+tts 在500-700ms左右，现在主要是asr 我用的豆包，还可以吧总的下来1s左右发自我的手机-------- 原始邮件 --------发件人： aeolus21 @.>日期： 2025年7月11日周五中午11:31收件人： 78/xiaozhi-esp32 @.>抄送： trberc @.>, Comment @.>主题： Re: [78/xiaozhi-esp32] 请教下qwen实时模型是如何实现的 (Issue #605)aeolus21 left a comment (78/xiaozhi-esp32#605) 我这边也自己基于开源server搭了一套，tts也用的豆包的湾湾小何，延时也很大，楼主后来解决了吗

—Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you commented.Message ID: @.***>

您说的火山tts是HuoshanDoubleStreamTTS 双流式吗

Jul 11 '25 06:07 aeolus21

是的发自我的手机-------- 原始邮件 --------发件人： aeolus21 @.>日期： 2025年7月11日周五下午2:56收件人： 78/xiaozhi-esp32 @.>抄送： trberc @.>, Comment @.>主题： Re: [78/xiaozhi-esp32] 请教下qwen实时模型是如何实现的 (Issue #605)aeolus21 left a comment (78/xiaozhi-esp32#605)

用火山的tts 基本在300ms 很快。llm用阿里新出的qwen3基础上的 truber-latest模型也很快一般问题llm+tts 在500-700ms左右，现在主要是asr 我用的豆包，还可以吧总的下来1s左右发自我的手机-------- 原始邮件 --------发件人： aeolus21 @.>日期： 2025年7月11日周五中午11:31收件人： 78/xiaozhi-esp32 @.>抄送： trberc @.>, Comment @.>主题： Re: [78/xiaozhi-esp32] 请教下qwen实时模型是如何实现的 (Issue #605)aeolus21 left a comment (78/xiaozhi-esp32#605) 我这边也自己基于开源server搭了一套，tts也用的豆包的湾湾小何，延时也很大，楼主后来解决了吗 —Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you commented.Message ID: @.***>

您说的火山tts是HuoshanDoubleStreamTTS 双流式吗

—Reply to this email directly, view it on GitHub, or unsubscribe.You are receiving this because you commented.Message ID: @.***>

Jul 15 '25 10:07 jkwang-a