chatgpt-web-midjourney-proxy 关于语音GPT场景的需求建议

大佬您好，有这样一个需求场景您看看是否有实现的可能，目前市面上基本上看不到这样的项目：

类似于微信里的语音聊天（非实时）：

我们将打字模式切换为语音输入模式，长按语音输入开始说话，结束长按后，用户输入的语音内容会通过whisper转换为文字并传输给gpt模型（注意，这个转换过程是隐藏传输的，用户在界面上并不能看到语音转换后的文字部分，除非它点击自己的语音并手动显示文字）。之后gpt接收用户文字后回答（无需流式传输），回答完成后自动调用tts并转换为语音自动播放给用户（这个转换过程也是隐藏传输的，用户也是看不到gpt回答的文字，而只能收到最终tts转换的语音）。

这样就实现了类似于微信里的语音聊天功能（非实时）功能。

这其中有一个不好的体验就在于用户在收到回答前的等待期过长，是否还可以考虑采用tts流式回传方式解决，这个官方目前是支持的。

81a93cda5438290b05722fecdf8f3391

Jan 27 '24 01:01 sunsky89757

对话这个功能确实很好。大半年前就有很多类似的语音对话平台，比如 call annie 几个月前官方也在 APP 上支持了实时对话这个需求市场还是挺大的，正好官方也出了这个实时语音流的api，希望作者可以考虑一下。

Jan 27 '24 02:01 bbb3n

大佬您好，有这样一个需求场景您看看是否有实现的可能，目前市面上基本上看不到这样的项目：

类似于微信里的语音聊天（非实时）：

我们将打字模式切换为语音输入模式，长按语音输入开始说话，结束长按后，用户输入的语音内容会通过whisper转换为文字并传输给gpt模型（注意，这个转换过程是隐藏传输的，用户在界面上并不能看到语音转换后的文字部分，除非它点击自己的语音并手动显示文字）。之后gpt接收用户文字后回答（无需流式传输），回答完成后自动调用tts并转换为语音自动播放给用户（这个转换过程也是隐藏传输的，用户也是看不到gpt回答的文字，而只能收到最终tts转换的语音）。

这样就实现了类似于微信里的语音聊天功能（非实时）功能。

这其中有一个不好的体验就在于用户在收到回答前的等待期过长，是否还可以考虑采用tts流式回传方式解决，这个官方目前是支持的。

前半部分都好实现就是语音流试输出在浏览器上相关的技术需要攻克

call annie 这个平台可以参考？

Jan 27 '24 02:01 Dooy

大佬您好，有这样一个需求场景您看看是否有实现的可能，目前市面上基本上看不到这样的项目：类似于微信里的语音聊天（非实时）：我们将打字模式切换为语音输入模式，长按语音输入开始说话，结束长按后，用户输入的语音内容会通过whisper转换为文字并传输给gpt模型（注意，这个转换过程是隐藏传输的，用户在界面上并不能看到语音转换后的文字部分，除非它点击自己的语音并手动显示文字）。之后gpt接收用户文字后回答（无需流式传输），回答完成后自动调用tts并转换为语音自动播放给用户（这个转换过程也是隐藏传输的，用户也是看不到gpt回答的文字，而只能收到最终tts转换的语音）。这样就实现了类似于微信里的语音聊天功能（非实时）功能。这其中有一个不好的体验就在于用户在收到回答前的等待期过长，是否还可以考虑采用tts流式回传方式解决，这个官方目前是支持的。

前半部分都好实现就是语音流试输出在浏览器上相关的技术需要攻克

call annie 这个平台可以参考？

确实，连 Open AI 自己都只是在 APP 上支持 call annie 是个闭源商业项目，而且也不是通过网页，应该参考不了了。不过市面上好像确实还没有开源项目做这个功能。

Jan 27 '24 02:01 bbb3n

chatgpt-web-midjourney-proxy chatgpt-web-midjourney-proxy copied to clipboard

关于语音GPT场景的需求建议

chatgpt-web-midjourney-proxy
chatgpt-web-midjourney-proxy copied to clipboard