PotterSu

Results 6 comments of PotterSu

好的,感谢大佬回复,我研究下,不懂再请教您

> “实时”相对于“非实时”,在部署优化、连接方式上有什么技巧和区别? @78 同问。我在楼上大佬开源的xiaozhiserver上部署LLM+tts,响应延迟很高。想请教下: 1.你们的LLM模型是部署在服务器端本地的还是通过阿里api访问的?我通过阿里api访问延迟比较高,同样的qwen2.5-72b,延迟有1-2s。 2.你们也是调用了豆包的弯弯小何api接口吗,我调用了豆包的弯弯小何api,但是延迟有2s左右。还是tts是有其他的部署方式。 感谢!

> > > “实时”相对于“非实时”,在部署优化、连接方式上有什么技巧和区别? > > > > > > [@78](https://github.com/78) 同问。我在楼上大佬开源的xiaozhiserver上部署LLM+tts,响应延迟很高。想请教下: 1.你们的LLM模型是部署在服务器端本地的还是通过阿里api访问的?我通过阿里api访问延迟比较高,同样的qwen2.5-72b,延迟有1-2s。 2.你们也是调用了豆包的弯弯小何api接口吗,我调用了豆包的弯弯小何api,但是延迟有2s左右。还是tts是有其他的部署方式。 感谢! > > 国内云厂商目前还没有提供实时响应的API,可以考虑私有化部署。TTS使用流式接口。 好的非常感谢大佬回复! 我之前试了在我们服务器上部署xiaozhi-server项目,访问本地ollama部署的qwen3-4b,延迟仍然很高有500ms-1s。不确定是不是跟我们服务器的算力有关系(RTX5000)。 如果大佬方便的话,可以简单透露下我们这么做是否是对的: 1.我们的服务器是不是算力太低了,应该换个算力高点儿的服务器,比如A100?或者建议的服务器配型。 2.通过ollama的方式部署在本地,然后服务端去访问本地的ollama端口这种方式是否可取。还是最好通过代码的方式直接load模型 推理

> 你需要Hopper架构之后的GPU才能用的上大模型的推理优化。 好的,我研究一下,感谢分享!

这是来自QQ邮箱的假期自动回复邮件。   您好,您的邮件我已收到。我将在短时间内,尽快给您回复。如有急事请拨打18646308557

这是来自QQ邮箱的假期自动回复邮件。   您好,您的邮件我已收到。我将在短时间内,尽快给您回复。如有急事请拨打18646308557