cherry-studio icon indicating copy to clipboard operation
cherry-studio copied to clipboard

语音输入输出

Open exqmjmz opened this issue 1 year ago • 12 comments

能否实现语音输入、输出。主要用于一些涉及到语音交互的场景,比如:语言学习、字幕配音

1、在聊天框中用户可以通过麦克风进行语音输入,将语音识别成文本,并发送,可以设置语音输入结束后多长时间就自动发送文本 2、AI答复可以进行语音播放,可以通过设置成自动播放或手动播放,下载该段音频

语音模型或者引擎可以集成或者让用户设置第三方服务集成

exqmjmz avatar Sep 05 '24 01:09 exqmjmz

感谢提出反馈意见,我加入待办列表,功能完成后我会在下面回复

kangfenmao avatar Sep 05 '24 03:09 kangfenmao

不知道有没有什么本地模型可以支持这个

kangfenmao avatar Sep 16 '24 14:09 kangfenmao

不知道有没有什么本地模型可以支持这个

https://github.com/AEJays/edge-tts-nodejs/blob/master/README-cn.md

可以用edge-tts,白嫖edge的服务,不过这个是只实现了文字转音频的输出,语音转文字的识别好像还没有

exqmjmz avatar Sep 17 '24 12:09 exqmjmz

不知道有没有什么本地模型可以支持这个

同时实现语音转文字,文字转语音的有azureAI https://azure.microsoft.com/zh-cn/products/ai-services/ai-speech

exqmjmz avatar Sep 17 '24 12:09 exqmjmz

离线的有飞桨 https://github.com/PaddlePaddle/PaddleSpeech?tab=readme-ov-file

exqmjmz avatar Sep 17 '24 12:09 exqmjmz

不知道有没有什么本地模型可以支持这个

语音转文字有开源的whisper

Komorebi-yaodong avatar Sep 19 '24 02:09 Komorebi-yaodong

可以参考这个: https://github.com/HaujetZhao/CapsWriter-Offline 但本地跑对PC要求还是很高的。Bilibili上有视频介绍,看上去效果不错。

xvweirong avatar Sep 22 '24 09:09 xvweirong

不知道有没有什么本地模型可以支持这个

不建议直接用本地模型进行处理,这些模型下载到本地会导致项目非常巨大,而且运行起来效果也不是很好。 建议直接使用在线服务,比如 gpt 家的 whisper 或者 豆包 什么的,既然已经填了 key 那就直接用起来,打不了加个开关或者选项。

这个可以参考 OpenCat 或者 BotGem ,都是直接调用 Azure 家的 tts 库进行语音处理。

DrayChou avatar Sep 29 '24 02:09 DrayChou

语音交互很有用,期待这个功能。 API服务推荐Azure Speech,100+多语言,STT和TTS效果都很好。

yingzwang avatar Oct 12 '24 11:10 yingzwang

siliconflow现在有音频转文字的模型了 https://docs.siliconflow.cn/api-reference/audio/create-audio-transcriptions

exqmjmz avatar Oct 24 '24 09:10 exqmjmz

+1。类似豆包打电话的功能

Zuckonit avatar Dec 06 '24 15:12 Zuckonit

可以参考 OpenAI 在 10 月和 12 月所发出的最新的模型: https://openai.com/index/introducing-the-realtime-api/ https://platform.openai.com/docs/guides/realtime

很期待新模式的适配 谢谢

RooobinYe avatar Dec 18 '24 12:12 RooobinYe

image siliconflow 支持了fish.audio 1.5了, 好期待 cherry能支持 TTS

hulao6 avatar Jan 08 '25 01:01 hulao6

不知道有没有什么本地模型可以支持这个

可以参考open webui,使用whisper或者whisper的分支fast whisper。最好可以添加一个选用语种对话功能,openwebui有语种识别错误的问题。

Image

person2217 avatar Feb 10 '25 06:02 person2217

可以参考下 gemini 多模态模型调用demo Gemini 2.0 Flash Multimodal Live API Client

pengan95 avatar Feb 14 '25 02:02 pengan95

不知道有没有什么本地模型可以支持这个

FunASR我本地部署是ok的,要是有了就有意思了,另外最近kokoro(-tts)也火。 Whisper的话可以试试whiper-live

highwindmx avatar Mar 03 '25 13:03 highwindmx

Image 我输出了一个html的audio 但是无法播放,使用 ``` 包起来预览能播放

shixixiyue avatar Apr 08 '25 10:04 shixixiyue

也可以参考lobechat https://github.com/lobehub/lobe-chat

LobeChat 支持文字转语音(Text-to-Speech,TTS)和语音转文字(Speech-to-Text,STT)技术 https://lobehub.com/zh/docs/usage/foundation/tts-stt

LobeChat 支持文字语音转换功能,允许用户通过语音输入内容,以及将 AI 输出的内容通过语音播报。 https://lobehub.com/zh/docs/usage/foundation/tts-stt

Lobechat就可以使用OpenAI的API key来调用模型,进行TTS和STT

Image

Veda-bit avatar Apr 12 '25 15:04 Veda-bit

希望增加原生的音频输入输出,好像有不用tts和stt的模型吧

gsq7474741 avatar Apr 19 '25 19:04 gsq7474741

语音输入文本可以用这两个开源软件:

https://github.com/HaujetZhao/CapsWriter-Offline

https://github.com/dapanggougou/sensevox

debukomori avatar May 19 '25 20:05 debukomori

语音转文本直接用windows自带的就挺好用的啊,win+H调用打开

hujincheng2009 avatar May 20 '25 11:05 hujincheng2009

语音转文本直接用windows自带的就挺好用的啊,win+H调用打开

你说的这个功能不够,也无法合成多语种的语音

Veda-bit avatar May 20 '25 12:05 Veda-bit

支持,希望能尽快落地。期待语音模式到来

hujincheng2009 avatar May 20 '25 12:05 hujincheng2009

多模态模型有挺多了,gemini、还有微软的phi-4-multimodal-instruct,都支持音频输入,做ASR都很好,但现在就是到处不支持音频。

aiqinxuancai avatar May 21 '25 07:05 aiqinxuancai

This issue has been inactive for a prolonged period and will be closed automatically in 10 days. 该问题已长时间处于闲置状态,10 天后将自动关闭。

github-actions[bot] avatar Jun 21 '25 00:06 github-actions[bot]

支持语音输入最好了,win系统应该可以用os自带的api

pedoc avatar Jun 25 '25 08:06 pedoc

This issue has been inactive for a prolonged period and will be closed automatically in 10 days. 该问题已长时间处于闲置状态,10 天后将自动关闭。

github-actions[bot] avatar Jul 26 '25 00:07 github-actions[bot]