hyhuc0079

Results 41 comments of


                                            hyhuc0079

发现几种吞字或多字的情况

省略号会导致静音。

Whisper转写可以调用gpu,Faster-Whisper则是用的cpu

好像是因为音频文件太短gpu没参与就玩成了。 faster是cpu gpu一起计算，但是faster好像对大量的细碎音频的转写效率反而没有原版性能好感觉faster是每次执行一个任务的时候都加载一次模型所以都内耗掉了

Whisper转写可以调用gpu,Faster-Whisper则是用的cpu

代码里已经指定了cuda

hub\temp\tmp2tbbopx2到底是个什么东西

我觉得这种实用工具还是不要一直往里面填功能，现在asr-tools作为一个小工具加载已经很慢了还是一个功能一个项目会比较好如果是考虑多个副本消耗磁盘空间可以参考我的方法 tools/venv/下，tool1，tool2，tool3，来共享一个环境，使用的时候只加载需要用到的另一个比较好的办法是全部conda，其实这个最新版我都是直接把requirement转成yml先conda update一下，然后再用pip补齐（虽然不算好习惯）主要是conda可以去重

hub\temp\tmp2tbbopx2到底是个什么东西

我觉得这种实用工具还是不要一直往里面填功能，现在asr-tools作为一个小工具加载已经很慢了还是一个功能一个项目会比较好如果是考虑多个副本消耗磁盘空间可以参考我的方法 tools/venv/下，tool1，tool2，tool3，来共享一个环境，使用的时候只加载需要用到的另一个比较好的办法是全部conda，其实这个最新版我都是直接把requirement转成yml先conda update一下，然后再用pip补齐（虽然不算好习惯）主要是conda可以去重

关于models--larryvrh--mt5-translation-ja_zh

日文翻译这段我帮你改了 def make_tran_ja2zh(): # 创建 pipeline，指定使用 CUDA device = 0 # 0 通常是默认的 GPU 设备 pipe = pipeline(model="larryvrh/mt5-translation-ja_zh", device=device) with open("./video.srt", 'r', encoding="utf-8") as file: gweight_data = file.read() result =...

关于models--larryvrh--mt5-translation-ja_zh

我看你几个翻译的好像都没加cuda定义，回头更新的时候记得自己加哈

关于models--larryvrh--mt5-translation-ja_zh

我试了，参考我发的那个单独对比，Sakura本身对一些acg领域的专有名词识别率确实高一些，但是它翻译字幕准确的原理和chatgpt一样，它的那些应用主要是通过api来提交，可以利用模型本身的能力来结合上下文推理，如果只拿它当词条翻译器精准度上升有限，不过我一开始测试whisper机翻就是用日语，就是因为日语是最难翻译的本身现在机翻日文就没有什么效果特别好的方案尤其一个读音几十种意思，不结合上下文确实很难翻译准确浦木宏少尉的名字分别被翻译成了 go！里木牛岛钝角

发现几个问题哈

我用git版随便转写一个英文视频翻译都会报错，我还以为你是Linux系统默认文件编码不一样呢？你试没报错嘛？

发现几个问题哈

比较不理解的是即便我把你生成的srt手工转一下码也依然会报错，我还把字幕文件删的只剩一行排除有特殊字符

‹
1
2
3
4
5
›