chatgpt-web-midjourney-proxy icon indicating copy to clipboard operation
chatgpt-web-midjourney-proxy copied to clipboard

关于语音GPT场景的需求建议

Open sunsky89757 opened this issue 1 year ago • 3 comments

大佬您好,有这样一个需求场景您看看是否有实现的可能,目前市面上基本上看不到这样的项目:

类似于微信里的语音聊天(非实时):

我们将打字模式切换为语音输入模式,长按语音输入开始说话,结束长按后,用户输入的语音内容会通过whisper转换为文字并传输给gpt模型(注意,这个转换过程是隐藏传输的,用户在界面上并不能看到语音转换后的文字部分,除非它点击自己的语音并手动显示文字)。之后gpt接收用户文字后回答(无需流式传输),回答完成后自动调用tts并转换为语音自动播放给用户(这个转换过程也是隐藏传输的,用户也是看不到gpt回答的文字,而只能收到最终tts转换的语音)。

这样就实现了类似于微信里的语音聊天功能(非实时)功能。

这其中有一个不好的体验就在于用户在收到回答前的等待期过长,是否还可以考虑采用tts流式回传方式解决,这个官方目前是支持的。

81a93cda5438290b05722fecdf8f3391

sunsky89757 avatar Jan 27 '24 01:01 sunsky89757

对话这个功能确实很好。 大半年前就有很多类似的语音对话平台,比如 call annie 几个月前官方也在 APP 上支持了实时对话 这个需求市场还是挺大的,正好官方也出了这个实时语音流的api,希望作者可以考虑一下。

bbb3n avatar Jan 27 '24 02:01 bbb3n

大佬您好,有这样一个需求场景您看看是否有实现的可能,目前市面上基本上看不到这样的项目:

类似于微信里的语音聊天(非实时):

我们将打字模式切换为语音输入模式,长按语音输入开始说话,结束长按后,用户输入的语音内容会通过whisper转换为文字并传输给gpt模型(注意,这个转换过程是隐藏传输的,用户在界面上并不能看到语音转换后的文字部分,除非它点击自己的语音并手动显示文字)。之后gpt接收用户文字后回答(无需流式传输),回答完成后自动调用tts并转换为语音自动播放给用户(这个转换过程也是隐藏传输的,用户也是看不到gpt回答的文字,而只能收到最终tts转换的语音)。

这样就实现了类似于微信里的语音聊天功能(非实时)功能。

这其中有一个不好的体验就在于用户在收到回答前的等待期过长,是否还可以考虑采用tts流式回传方式解决,这个官方目前是支持的。

81a93cda5438290b05722fecdf8f3391

前半部分都好实现 就是语音流试输出 在浏览器上 相关的技术需要攻克

call annie 这个平台可以参考?

Dooy avatar Jan 27 '24 02:01 Dooy

大佬您好,有这样一个需求场景您看看是否有实现的可能,目前市面上基本上看不到这样的项目: 类似于微信里的语音聊天(非实时): 我们将打字模式切换为语音输入模式,长按语音输入开始说话,结束长按后,用户输入的语音内容会通过whisper转换为文字并传输给gpt模型(注意,这个转换过程是隐藏传输的,用户在界面上并不能看到语音转换后的文字部分,除非它点击自己的语音并手动显示文字)。之后gpt接收用户文字后回答(无需流式传输),回答完成后自动调用tts并转换为语音自动播放给用户(这个转换过程也是隐藏传输的,用户也是看不到gpt回答的文字,而只能收到最终tts转换的语音)。 这样就实现了类似于微信里的语音聊天功能(非实时)功能。 这其中有一个不好的体验就在于用户在收到回答前的等待期过长,是否还可以考虑采用tts流式回传方式解决,这个官方目前是支持的。 81a93cda5438290b05722fecdf8f3391

前半部分都好实现 就是语音流试输出 在浏览器上 相关的技术需要攻克

call annie 这个平台可以参考?

确实,连 Open AI 自己都只是在 APP 上支持 call annie 是个闭源商业项目,而且也不是通过网页,应该参考不了了。不过市面上好像确实还没有开源项目做这个功能。

bbb3n avatar Jan 27 '24 02:01 bbb3n