SenseVoice
SenseVoice copied to clipboard
Multilingual Voice Understanding Model
为什么不写gradio 的具体版本????? 这个库有很多破坏性更新,经常接口变更 ## ❓ Questions and Help ### Before asking: 1. search the issues. 2. search the docs. #### What is your question? #### Code #### What have you...
#### What is your question? 在使用 FunASR 处理音频文件时,发现部分格式为 .m4a 或 .mp3 的音频文件会直接导致设备的显存(GPU 内存)或内存(RAM)被完全占用,进而引发程序进程崩溃。但这些 “问题音频” 通过人工使用常规音频播放软件打开时,能够正常播放,未发现音频本身存在损坏、无法读取等明显问题。请问导致该现象的可能原因是什么?如何解决此类因音频处理导致显存 / 内存跑满并崩溃的问题? #### What have you tried? 1、验证问题音频的完整性:使用多个主流音频播放软件(如 Windows Media Player、PotPlayer、VLC)打开问题 .m4a 和 .mp3 文件,均能正常播放,未出现卡顿、无声、文件损坏提示等问题,排除音频文件本身无法正常读取的基础问题。...
readme文档中的钉钉群聊二维码已过期,请求作者更新二维码,谢谢🙏
Notice: In order to resolve issues more efficiently, please raise issue following the template. (注意:为了更加高效率解决您遇到的问题,请按照模板提问,补充细节) ## ❓ Questions and Help #### What is your question? 目前遇到一个场景,就是外国人学习中文的时候发音会产生系统性的偏误,就是说错许多字的语音,如果有大量外国人发中文的音频以及说错的人工标注,是否有可能利用这个大模型仅作微调不改变结构就训练出可识别发音错误的语音大模型呢?
#### What is your question? 为什么我微调时,每个epoch内都有大量The grad norm is nan. Skipping updating the model. #### 日志 ~~~ [2025-10-29 23:59:01,773][root][WARNING] - The grad norm is nan. Skipping updating the model. [2025-10-29...
The `use_itn` parameter is currently hardcoded. This PR adds a `use_itn` parameter to the API so clients can control ITN behavior. The new parameter defaults to `false`, so the existing...
在官方demo上可以上传并识别.webm格式的文件,本地部署的开源版SenseVoiceSmall怎么能够识别这种格式(已安装ffmpeg)?
fix https://github.com/FunAudioLLM/SenseVoice/issues/240 https://github.com/FunAudioLLM/SenseVoice/issues/167 https://github.com/FunAudioLLM/SenseVoice/issues/87