piagodai

Results 7 comments of piagodai

> 分析貌似是一直在后台运行,等待好几分钟后,出现这个报错 > > +1

感觉qwen 2.5:32b很容易遇到, 另外还有gpt返回的response为空或者格式不对,比如附件里的这些 claude基本上不会遇到 [error.json](https://github.com/user-attachments/files/18229772/error.json)

它报一堆error,日志返回也有很多是空 但是最后能翻译完, 所以我也不知道这些error到底啥情况

好的,按默认文档来的,用的claude-3-5-sonnet-20240620 ![微信截图_20241104191845](https://github.com/user-attachments/assets/f24916a1-9963-4940-97ec-da7d615eaf65)

> 刚刚尝试了下,同样的长视频,把大语言模型换成 openai/gpt-4o-2024-11-20 就可以了 @piagodai 感谢,我一直用的claude 3.5 sonnet,你之前也是么? 如果是的话看来是大模型的问题

今天大概查了一下原因,是在这句: pd.DataFrame({'Source': src_lines, 'Translation': tr_lines}).to_excel("output/log/translation_results_for_subtitles.xlsx", index=False) 的时候, 输入的src_lines和tr_lines行数不一致 跟德文没有关系,我在阿拉伯语视频翻中文的时候也遇到了 应该就是llm断句的时候有误差或者对原文和译文的断句方式不一致的原因。 因为每个llm返回的结果,以及同一个llm两次返回的结果都不一样,所以换一个llm就可能通过了, 或者重新load一下视频把cache清掉重新调llm断句也能通过。

whisperX已经支持的wav2vac 模型还挺多的:[link](https://github.com/m-bain/whisperX/blob/main/whisperx/alignment.py#L18) 但是spacy的model还不够多