chatgpt-web-midjourney-proxy
chatgpt-web-midjourney-proxy copied to clipboard
关于语音GPT场景的需求建议
大佬您好,有这样一个需求场景您看看是否有实现的可能,目前市面上基本上看不到这样的项目:
类似于微信里的语音聊天(非实时):
我们将打字模式切换为语音输入模式,长按语音输入开始说话,结束长按后,用户输入的语音内容会通过whisper转换为文字并传输给gpt模型(注意,这个转换过程是隐藏传输的,用户在界面上并不能看到语音转换后的文字部分,除非它点击自己的语音并手动显示文字)。之后gpt接收用户文字后回答(无需流式传输),回答完成后自动调用tts并转换为语音自动播放给用户(这个转换过程也是隐藏传输的,用户也是看不到gpt回答的文字,而只能收到最终tts转换的语音)。
这样就实现了类似于微信里的语音聊天功能(非实时)功能。
这其中有一个不好的体验就在于用户在收到回答前的等待期过长,是否还可以考虑采用tts流式回传方式解决,这个官方目前是支持的。
对话这个功能确实很好。 大半年前就有很多类似的语音对话平台,比如 call annie 几个月前官方也在 APP 上支持了实时对话 这个需求市场还是挺大的,正好官方也出了这个实时语音流的api,希望作者可以考虑一下。
大佬您好,有这样一个需求场景您看看是否有实现的可能,目前市面上基本上看不到这样的项目:
类似于微信里的语音聊天(非实时):
我们将打字模式切换为语音输入模式,长按语音输入开始说话,结束长按后,用户输入的语音内容会通过whisper转换为文字并传输给gpt模型(注意,这个转换过程是隐藏传输的,用户在界面上并不能看到语音转换后的文字部分,除非它点击自己的语音并手动显示文字)。之后gpt接收用户文字后回答(无需流式传输),回答完成后自动调用tts并转换为语音自动播放给用户(这个转换过程也是隐藏传输的,用户也是看不到gpt回答的文字,而只能收到最终tts转换的语音)。
这样就实现了类似于微信里的语音聊天功能(非实时)功能。
这其中有一个不好的体验就在于用户在收到回答前的等待期过长,是否还可以考虑采用tts流式回传方式解决,这个官方目前是支持的。
前半部分都好实现 就是语音流试输出 在浏览器上 相关的技术需要攻克
call annie
这个平台可以参考?
大佬您好,有这样一个需求场景您看看是否有实现的可能,目前市面上基本上看不到这样的项目: 类似于微信里的语音聊天(非实时): 我们将打字模式切换为语音输入模式,长按语音输入开始说话,结束长按后,用户输入的语音内容会通过whisper转换为文字并传输给gpt模型(注意,这个转换过程是隐藏传输的,用户在界面上并不能看到语音转换后的文字部分,除非它点击自己的语音并手动显示文字)。之后gpt接收用户文字后回答(无需流式传输),回答完成后自动调用tts并转换为语音自动播放给用户(这个转换过程也是隐藏传输的,用户也是看不到gpt回答的文字,而只能收到最终tts转换的语音)。 这样就实现了类似于微信里的语音聊天功能(非实时)功能。 这其中有一个不好的体验就在于用户在收到回答前的等待期过长,是否还可以考虑采用tts流式回传方式解决,这个官方目前是支持的。
前半部分都好实现 就是语音流试输出 在浏览器上 相关的技术需要攻克
call annie
这个平台可以参考?
确实,连 Open AI 自己都只是在 APP 上支持 call annie 是个闭源商业项目,而且也不是通过网页,应该参考不了了。不过市面上好像确实还没有开源项目做这个功能。