语音输入输出
能否实现语音输入、输出。主要用于一些涉及到语音交互的场景,比如:语言学习、字幕配音
1、在聊天框中用户可以通过麦克风进行语音输入,将语音识别成文本,并发送,可以设置语音输入结束后多长时间就自动发送文本 2、AI答复可以进行语音播放,可以通过设置成自动播放或手动播放,下载该段音频
语音模型或者引擎可以集成或者让用户设置第三方服务集成
感谢提出反馈意见,我加入待办列表,功能完成后我会在下面回复
不知道有没有什么本地模型可以支持这个
不知道有没有什么本地模型可以支持这个
https://github.com/AEJays/edge-tts-nodejs/blob/master/README-cn.md
可以用edge-tts,白嫖edge的服务,不过这个是只实现了文字转音频的输出,语音转文字的识别好像还没有
不知道有没有什么本地模型可以支持这个
同时实现语音转文字,文字转语音的有azureAI https://azure.microsoft.com/zh-cn/products/ai-services/ai-speech
离线的有飞桨 https://github.com/PaddlePaddle/PaddleSpeech?tab=readme-ov-file
不知道有没有什么本地模型可以支持这个
语音转文字有开源的whisper
可以参考这个: https://github.com/HaujetZhao/CapsWriter-Offline 但本地跑对PC要求还是很高的。Bilibili上有视频介绍,看上去效果不错。
不知道有没有什么本地模型可以支持这个
不建议直接用本地模型进行处理,这些模型下载到本地会导致项目非常巨大,而且运行起来效果也不是很好。 建议直接使用在线服务,比如 gpt 家的 whisper 或者 豆包 什么的,既然已经填了 key 那就直接用起来,打不了加个开关或者选项。
这个可以参考 OpenCat 或者 BotGem ,都是直接调用 Azure 家的 tts 库进行语音处理。
语音交互很有用,期待这个功能。 API服务推荐Azure Speech,100+多语言,STT和TTS效果都很好。
siliconflow现在有音频转文字的模型了 https://docs.siliconflow.cn/api-reference/audio/create-audio-transcriptions
+1。类似豆包打电话的功能
可以参考 OpenAI 在 10 月和 12 月所发出的最新的模型: https://openai.com/index/introducing-the-realtime-api/ https://platform.openai.com/docs/guides/realtime
很期待新模式的适配 谢谢
siliconflow 支持了fish.audio 1.5了, 好期待 cherry能支持 TTS
不知道有没有什么本地模型可以支持这个
可以参考open webui,使用whisper或者whisper的分支fast whisper。最好可以添加一个选用语种对话功能,openwebui有语种识别错误的问题。
可以参考下 gemini 多模态模型调用demo Gemini 2.0 Flash Multimodal Live API Client
不知道有没有什么本地模型可以支持这个
FunASR我本地部署是ok的,要是有了就有意思了,另外最近kokoro(-tts)也火。 Whisper的话可以试试whiper-live
我输出了一个html的audio 但是无法播放,使用 ``` 包起来预览能播放
也可以参考lobechat https://github.com/lobehub/lobe-chat
LobeChat 支持文字转语音(Text-to-Speech,TTS)和语音转文字(Speech-to-Text,STT)技术 https://lobehub.com/zh/docs/usage/foundation/tts-stt
LobeChat 支持文字语音转换功能,允许用户通过语音输入内容,以及将 AI 输出的内容通过语音播报。 https://lobehub.com/zh/docs/usage/foundation/tts-stt
Lobechat就可以使用OpenAI的API key来调用模型,进行TTS和STT
希望增加原生的音频输入输出,好像有不用tts和stt的模型吧
语音输入文本可以用这两个开源软件:
https://github.com/HaujetZhao/CapsWriter-Offline
https://github.com/dapanggougou/sensevox
语音转文本直接用windows自带的就挺好用的啊,win+H调用打开
语音转文本直接用windows自带的就挺好用的啊,win+H调用打开
你说的这个功能不够,也无法合成多语种的语音
支持,希望能尽快落地。期待语音模式到来
多模态模型有挺多了,gemini、还有微软的phi-4-multimodal-instruct,都支持音频输入,做ASR都很好,但现在就是到处不支持音频。
This issue has been inactive for a prolonged period and will be closed automatically in 10 days. 该问题已长时间处于闲置状态,10 天后将自动关闭。
支持语音输入最好了,win系统应该可以用os自带的api
This issue has been inactive for a prolonged period and will be closed automatically in 10 days. 该问题已长时间处于闲置状态,10 天后将自动关闭。