simon comments

Results 7 comments of


                                            simon

输出的语音中出现了参考音频的内容

> > 有比较好的解决办法吗？我也遇到了这个问题，会反复出现参考文本语音。 > > 按照标点符号切割待合成文本，同时选用内容较长的参考文本。测试了近300万字，都没遇到过。参考文本可以是有标点符号分割的多句，只要总长度大于切割后的待合成文本就行了。没太理解这句话的意思，是说：参考文本要大于切割后的合成文本？我一直以为参考文本尽量少，最好是一句话内的。

执行开启ssl提取的时候，np.isnan(ssl.detach().numpy()).sum()不为0导致后续无法训练了

存在同样问题，3060T显卡，关闭半精度无效。

执行开启ssl提取的时候，np.isnan(ssl.detach().numpy()).sum()不为0导致后续无法训练了

> @CloudTronUSA @sipeter @Mrchen116 调研一下你们非16系的卡，半精度跑2步骤的推理，跑出nan的概率高吗？ 3060T显卡，音频质量好，语速较快，GPT-SoVITS自带的切割音频后，全部NaN，audacity切片放入output\slicer_opt，有1、2个能通过，修改全精度无效。重新测试发现，原音频素材有爆音存在，前期将素材的爆音问题处理后，能提高SSL的成功率。又测试发现，关掉半精度可以解决nan问题，之前可能没有操作有误。

提问时使用语音输入只能使用whisper-1模型，配置其他模型不起作用

> 是我自己的原因，安装的ffmpeg版本太低造成的，现在已经好了请问，您是哪个环境下的ffmpeg版本问题导致的？我也是提示：当前分组 default 下对于模型 whisper-1 无可用渠道。我本机xinference ，docker上 xinference 部署whisper都测试，一样的报错。同样的配置在dify可以正常语音输入。

[Feature Request]: Print version or commit-id when RAGFlow is started.

agree. Or it can be added somewhere on the project page.

转写长音频（20分钟以上）的时候，会出现大量的叠字

没有解决呢，我发现了规律，录制的字正腔圆的电子书就不会有这个问题，而随意的播客节目，会大量出现叠字。

转写长音频（20分钟以上）的时候，会出现大量的叠字

> 不用到20分钟，1分钟（vad强切默认值是60s）就能出现吧。我看是ASR模型的问题吧，ASR推理vad切不断的语音这种现象比较明显。至于调到多少可能跟训练数据的长度有关系吧，我觉得尝试调到20s看看有没有改善。 @lhanzl @xwjiang3 我做了测试，修改max_single_segment_time参数会影响叠字出现的频率，测试下来，我这个测试的音频材料，max_single_segment_time设置为10s（10000）的时候，叠字最少，但这个可能也跟音频本身有关系，没有代表性。