everyone-can-use-english
everyone-can-use-english copied to clipboard
建议语音转文字服务支持 Nova(英文转录速度 20x 于 whisper,价格差不多,准确度也很高);
之前研究过语音转文字这块的服务,闭源开源/本地云端基本上都玩过。
Whisper 很好用,也是目前我本地主力语音转文字的工具。但 Whisper 也有几个问题:
- 幻觉:可能会添加原文中没有的内容
- 响应速度:本地不开 GPU 加速速度很慢,云端 API 又有 25MB 的文件体积限制,大文件需要提取 mp3 后分段处理。
Enjoy 的场景我看主要是英语为主,可以考虑一下 Speech to Text API: Next-Gen AI Speech Recognition | Deepgram 的服务,Nova 语音转文字服务非常快,十分钟音频秒出结果;英文的准确率也很高,支持 timestamp-word 级别对齐;价格和 openai whisper 差不多,新用户赠送 200刀 额度。
PS:看到 Issue 里很多人反馈 Whisper is not working,感觉这里有点坑。
本地想使用 Whisper, 如果只用 cpu 跑,小模型速度还可以,但准确度就下去了;large model 又太慢。 而 web 应用 调 GPU 又涉及各个平台适配的问题,投产比太低。
Enjoy 如果能支持类 srt 格式文件导入可能会更容易扩展内容源(看上去需要 timestamp-word 级别对齐),把生成字幕的工作交给其他工具来做,比如 https://memo.ac 就基于 Whisper 做了 Mac+Windows 的 GPU 加速+ VAD 人声识别。像 buzz 之类的工具也做了 gpu 支持,github 上 whisper 生态还是很繁荣的。
感谢建议。
本地 whisper 服务只是一个可选项,为用户提供的一个本地的免费方案。实际上 Enjoy 也提供了其他 STT 云服务选项,比如 OpenAI 的 whisper 和 Azure AI 的语音识别,效果都不错的。后续可以提供更多云服务选项。
另外,新版的 Enjoy 用了 force alignment,已经不需要 word level 的 transcription 了。
感谢回复,主要是我在 Enjoy 上拿 openai 的 api 试了两个 ted 的演讲视频,开头的转录文本都出现了不属于原文的内容(whisper 的幻觉在音乐背景下经常发生)。。
单纯依靠 api 结果,出现了错误很尴尬。如果能自行导入 Srt 文件的话,用户还能对转录结果中的幻觉内容做一个修正。
明白。后续会增加修改转录结果的功能,导入 srt 文件也可以考虑加上。
明白。后续会增加修改转录结果的功能,导入 srt 文件也可以考虑加上。
都已经实现了。