CapsWriter-Offline
CapsWriter-Offline copied to clipboard
CapsWriter 的离线版,一个好用的 PC 端的语音输入工具
https://huggingface.co/csukuangfj/sherpa-onnx-paraformer-zh-2024-03-09 以上模型有更新,自己手动下载,并转换了模型格式,但是无法识别语音
比如看一些视频内容不想放出声音,或者在有听力障碍的情况,能实时显示出字幕来。 最好能提供API(比如WebSocket之类进行输入输出的推送)
本來曾經尚嘗試更換模型為粵語模型(csukuangfj/sherpa-onnx-paraformer-trilingual-zh-cantonese-en)及其他模型,能成功運行但不能識別出結果,請問是什麼問題?是要重新打包嗎?
期望能够增加选择输入/输出设备的功能,输入设备就是目前的功能。但是开远程会议的时候,有时候也是想要将对面的语音转为语音的,能否将这个功能也实现。谢啦
我是一个虚拟麦克风用户, 如果使用默认输入源, 会将系统声音也输入进去, 导致识别结果出现混乱, 所以能否更改输入源为我的物理麦克风或由 NVIDIA 降噪后的麦克风, 感谢开发者支持.
如果对着麦克风说话的话,它是能够正确识别的。但是如果按下录音键不说话,它也能识别出这些奇奇 怪怪的字出来。  
通过start_client.exe 录音文件.mp3向start_server.exe发送识别文字的请求的时候,如果卡那之后,start_server.exe就出bug了,下回再发起都不响应了,必须重新关闭start_server.exe重新启动才可以进行再次识别语音,不知道这个bug在哪解决?谢谢
现在是:2024年5月份 现在最新的numpy版本是2.4 但是目前在requirements-server.txt文件中,没有指定numpy的版本 如果直接运行会报错 ``` AttributeError: module 'numpy' has no attribute 'bool'. `np.bool` was a deprecated alias for the builtin `bool`. To avoid this error in existing code, use `bool`...
其实不需要ui 只要一个console 监控按键,录制音频, 输出到屏幕即可。 能不能给一个简单代码, whisper 这块我可以来写
### 修改方式 中英文替换之后,没有再次调整空格,这个问题影响还挺大的。比如邮箱输入的时候,艾特改成@,导致后面的总是多一个空格出来很麻烦。 **我的修改方式是追加两行代码,让它再次调整**。 经过我的测试,这样的修改是可行的。 ### 备注 为了不重写代码或者设置两遍变量,我增加了一个全局变量文件,用来共享 client 和 server 的信息。 不过,实际上,全局变量文件应该只存储变量,而不存储代码。所以按照开发时的规范重复的函数应该放在 utils 的那个文件夹下。 但是我看了一下你的程序会将 utils 下面的代码都打包一遍,我不清楚你的程序是如何打包的,所以我没有在这个模块下贸然添加任何代码,就全写在全局变量的文件里面了。 **总之,这是一个修改示意~如果你采纳的话,有不符合你的代码逻辑的部分,请直接修改**。 ### 修改测试结果 我的测试结果如下,[email protected],一 Hz,180Hz,[email protected]  为了准确识别邮箱和网址,我新增的热词(在 `hot-rule.txt` 下)如下: ```bash 艾特 QQ...