Hongwen comments

Results 7 comments of


                                            Hongwen

content提取方式的比较？

还有个疑问： ``` logits = model.extract_features(**inputs) feats = model.final_proj(logits[0]) ``` 这部分代码提取的第9层的信息，又经过了final_proj的结构，这样是bug还是有意为之？我的理解是最后一层经过它才是合理的

is this better than diff svc and so vit svc?

> from now on, whisper is the best audio encoder for svc.这个项目的目的就是为了去证明这一点。您有对比几版相同模型不同content提取方式的结果吗？比如hubert，whisper，content vec，或者类似so vit svc的第九层的content vec就用您现在的方案。另外我去看了so vit svc的方案，用了vits的框架。相对来说，您的方案只用了声码器部分结构，相对简洁但是模型参数量和模型能力是足够的吗？我粗浅理解是从效果上看，您的方案很难达到一个完整vits达到的效果。

is this better than diff svc and so vit svc?

我感觉简洁也可以达到比较好的效果，并不冲突，效果的差距通过block结构的简单修改和参数量的增加完全可以弥补。另外，如果验证有效性，我理解还是需要对比不同content的提取方法在你这套框架下的效果，不然很难证明whisper是best encoder，只能说是一个可行的方案，这个基本上你实验前就知道了。当然，您这个仓库确实是个很好的项目，我也有参考到，非常感谢。

is this better than diff svc and so vit svc?

说白了，我本来是想白嫖您的结论，看看如果您做了对比，哪个好一点

is this better than diff svc and so vit svc?

好的，非常感谢。对于转换而言，whisper也不一定就比不过自监督模型，更可能的情况是这些模型都有自身的缺点，需要针对vc任务有专门的设计。

is this better than diff svc and so vit svc?

@MaxMax2016 你好，我做了个对比的实验，使用不同ppg训练声学模型的情况。训练集的loss如下： ![ppg_resultpng](https://user-images.githubusercontent.com/37586343/225540480-a57c201e-615c-46d0-b215-2a9f991df239.png) whisper：medium contentvec: checkpoint_best_legacy_500 hubertsoft: hubert-soft-0d54a1f4.pt

is this better than diff svc and so vit svc?

@MaxMax2016 您好，可以加一下微信吗，可以做一些交流？ [email protected] 如果可以的话，可以发邮件给我，我加您