Gedanke comments

Results 5 comments of


                                            Gedanke

[BUG] worker-1 exited with code 1 and api-1 exited with code 1

> @dgedanke @cypher256 are you still facing this issue? Added stale tag as we didn't receive any comment on this issue for more than 40 days. I'm sorry for taking...

【求助】关于 GPU 利用率以及并发相关的问题

> 你用的是哪个api？然后api的话 @ChasonJiang 一起看看？ main 分支的 api_v2

> 使用api_v2的话，可以增加batch_size，并使用cut5 text_split_method 一直是 cut5，看之前 issue 里面说这个效果最好 batch_size 设置过 2 的 n 次方，1，2，4，8，。。。最后选择的是 4，并发情况下表现会好点我想的是在能让 GPU 一直维持在高利用率状态，这样并发数量高，同时返回的流式语音不会中断 ![1725065988906](https://github.com/user-attachments/assets/fdbd586c-c870-4347-b270-3cb24594fadf) 这是之前一次测试的结果，5 个 workers，GPU 前期利用率高，后面一直在处理任务，但利用率上不来语音的长度是 1min 20s，流式语音首包返回大概就几秒，有些流式语音播放的时候就会有中断

【求助】关于 GPU 利用率以及并发相关的问题

> > 理由是gsv是基于右padding，而右padding的结果是batchsize上去了如果参考音频有长有短，短的参考音频的padding 在参考和推理的音频token距离过大，会影响效果，具体表现是漏字等。 > > 理论上控制好mask也不会出现这个问题。在之前的fast_inference_分支中，在进行next token的预测时（使用kv cache），sdpa中是没有mask的，这会导致sdpa中计算softmax时，将padding部分也纳入考虑，从而改变了概率分布，这可能就是之前fast_inference_分支漏字的直接原因（相比于之前的main分支，毕竟这些在之前的main分支上也有，但没那么显著）。现在fast_inference_分支合并进了main分支，且修复了那个问题。但是当batch size>1和固定batch size=1，在经过linear之后同一张量上的结果仍然是会有差异的（虽然在误差范围内），但不清楚这种差异会带来什么影响。好的，谢谢大佬！

【求助】关于 GPU 利用率以及并发相关的问题

> > > 理由是gsv是基于右padding，而右padding的结果是batchsize上去了如果参考音频有长有短，短的参考音频的padding 在参考和推理的音频token距离过大，会影响效果，具体表现是漏字等。 > > > > > > 理论上控制好mask也不会出现这个问题。在之前的fast_inference_分支中，在进行next token的预测时（使用kv cache），sdpa中是没有mask的，这会导致sdpa中计算softmax时，将padding部分也纳入考虑，从而改变了概率分布，这可能就是之前fast_inference_分支漏字的直接原因（相比于之前的main分支，毕竟这些在之前的main分支上也有，但没那么显著）。现在fast_inference_分支合并进了main分支，且修复了那个问题。但是当batch size>1和固定batch size=1，在经过linear之后同一张量上的结果仍然是会有差异的（虽然在误差范围内），但不清楚这种差异会带来什么影响。 > > 分组能解决，即把参考音频是3-5秒的一组，5-8秒的一组，如果3秒和8秒一组进batch，绝对会漏一整个分句。好的，感谢大佬的解答！