cherry-studio 语音输入输出

能否实现语音输入、输出。主要用于一些涉及到语音交互的场景，比如：语言学习、字幕配音

1、在聊天框中用户可以通过麦克风进行语音输入，将语音识别成文本，并发送，可以设置语音输入结束后多长时间就自动发送文本 2、AI答复可以进行语音播放，可以通过设置成自动播放或手动播放，下载该段音频

语音模型或者引擎可以集成或者让用户设置第三方服务集成

Sep 05 '24 01:09 exqmjmz

感谢提出反馈意见，我加入待办列表，功能完成后我会在下面回复

Sep 05 '24 03:09 kangfenmao

不知道有没有什么本地模型可以支持这个

Sep 16 '24 14:09 kangfenmao

不知道有没有什么本地模型可以支持这个

https://github.com/AEJays/edge-tts-nodejs/blob/master/README-cn.md

可以用edge-tts，白嫖edge的服务，不过这个是只实现了文字转音频的输出，语音转文字的识别好像还没有

Sep 17 '24 12:09 exqmjmz

不知道有没有什么本地模型可以支持这个

同时实现语音转文字，文字转语音的有azureAI https://azure.microsoft.com/zh-cn/products/ai-services/ai-speech

Sep 17 '24 12:09 exqmjmz

离线的有飞桨 https://github.com/PaddlePaddle/PaddleSpeech?tab=readme-ov-file

Sep 17 '24 12:09 exqmjmz

不知道有没有什么本地模型可以支持这个

语音转文字有开源的whisper

Sep 19 '24 02:09 Komorebi-yaodong

可以参考这个: https://github.com/HaujetZhao/CapsWriter-Offline 但本地跑对PC要求还是很高的。Bilibili上有视频介绍，看上去效果不错。

Sep 22 '24 09:09 xvweirong

不知道有没有什么本地模型可以支持这个

不建议直接用本地模型进行处理，这些模型下载到本地会导致项目非常巨大，而且运行起来效果也不是很好。建议直接使用在线服务，比如 gpt 家的 whisper 或者豆包什么的，既然已经填了 key 那就直接用起来，打不了加个开关或者选项。

这个可以参考 OpenCat 或者 BotGem ，都是直接调用 Azure 家的 tts 库进行语音处理。

Sep 29 '24 02:09 DrayChou

语音交互很有用，期待这个功能。 API服务推荐Azure Speech，100+多语言，STT和TTS效果都很好。

Oct 12 '24 11:10 yingzwang

siliconflow现在有音频转文字的模型了 https://docs.siliconflow.cn/api-reference/audio/create-audio-transcriptions

Oct 24 '24 09:10 exqmjmz

+1。类似豆包打电话的功能

Dec 06 '24 15:12 Zuckonit

可以参考 OpenAI 在 10 月和 12 月所发出的最新的模型： https://openai.com/index/introducing-the-realtime-api/ https://platform.openai.com/docs/guides/realtime

很期待新模式的适配谢谢

Dec 18 '24 12:12 RooobinYe

siliconflow 支持了fish.audio 1.5了，好期待 cherry能支持 TTS

Jan 08 '25 01:01 hulao6

不知道有没有什么本地模型可以支持这个

可以参考open webui，使用whisper或者whisper的分支fast whisper。最好可以添加一个选用语种对话功能，openwebui有语种识别错误的问题。

Feb 10 '25 06:02 person2217

可以参考下 gemini 多模态模型调用demo Gemini 2.0 Flash Multimodal Live API Client

Feb 14 '25 02:02 pengan95

不知道有没有什么本地模型可以支持这个

FunASR我本地部署是ok的，要是有了就有意思了，另外最近kokoro(-tts)也火。 Whisper的话可以试试whiper-live

Mar 03 '25 13:03 highwindmx

我输出了一个html的audio 但是无法播放，使用 ``` 包起来预览能播放

Apr 08 '25 10:04 shixixiyue

也可以参考lobechat https://github.com/lobehub/lobe-chat

LobeChat 支持文字转语音（Text-to-Speech，TTS）和语音转文字（Speech-to-Text，STT）技术 https://lobehub.com/zh/docs/usage/foundation/tts-stt

LobeChat 支持文字语音转换功能，允许用户通过语音输入内容，以及将 AI 输出的内容通过语音播报。 https://lobehub.com/zh/docs/usage/foundation/tts-stt

Lobechat就可以使用OpenAI的API key来调用模型，进行TTS和STT

Apr 12 '25 15:04 Veda-bit

希望增加原生的音频输入输出，好像有不用tts和stt的模型吧

Apr 19 '25 19:04 gsq7474741

语音输入文本可以用这两个开源软件：

https://github.com/HaujetZhao/CapsWriter-Offline

https://github.com/dapanggougou/sensevox

May 19 '25 20:05 debukomori

语音转文本直接用windows自带的就挺好用的啊，win+H调用打开

May 20 '25 11:05 hujincheng2009

语音转文本直接用windows自带的就挺好用的啊，win+H调用打开

你说的这个功能不够，也无法合成多语种的语音

May 20 '25 12:05 Veda-bit

支持，希望能尽快落地。期待语音模式到来

May 20 '25 12:05 hujincheng2009

多模态模型有挺多了，gemini、还有微软的phi-4-multimodal-instruct，都支持音频输入，做ASR都很好，但现在就是到处不支持音频。

May 21 '25 07:05 aiqinxuancai

This issue has been inactive for a prolonged period and will be closed automatically in 10 days. 该问题已长时间处于闲置状态，10 天后将自动关闭。

Jun 21 '25 00:06 github-actions[bot]

支持语音输入最好了,win系统应该可以用os自带的api

Jun 25 '25 08:06 pedoc

This issue has been inactive for a prolonged period and will be closed automatically in 10 days. 该问题已长时间处于闲置状态，10 天后将自动关闭。

Jul 26 '25 00:07 github-actions[bot]