lora-svc icon indicating copy to clipboard operation
lora-svc copied to clipboard

感觉可以接一个hifigan-bwe超采样下?

Open KakaruHayate opened this issue 2 years ago • 7 comments

如题,现在采样率有点低(16kHz),我看仓库里放了很多效果器,直接应用效果不是很理想

试了下使用hifi-gan-bwe进行超采样

目前使用了三个预训练模型进行超采样: 输入源是opencpop中2018.wav 推理直出 svc_out.zip hifi-gan-bwe-10-42890e3-vctk-48kHz svc_out_bwe.zip hifi-gan-bwe-12-b086d8b-vctk-16kHz-48kHz svc_out_bwe16_48.zip hifi-gan-bwe-05-cd9f4ca-vctk-48kHz svc_out_bwevctk48.zip

或许也可以参考DDSP-SVC中使用预训练声码器增强?

KakaruHayate avatar Apr 07 '23 09:04 KakaruHayate

@KakaruHayate 恩恩好的

MaxMax2016 avatar Apr 07 '23 10:04 MaxMax2016

@KakaruHayate 集成了

MaxMax2016 avatar Apr 08 '23 08:04 MaxMax2016

@KakaruHayate 集成了

https://pan.baidu.com/s/1YatDgwh9TD46B56MtY7Q8A?pwd=AAAA

高频的表现相比直接使用原仓库劣化很多

KakaruHayate avatar Apr 09 '23 11:04 KakaruHayate

bandex_test.zip 我这里测试好像没问题

MaxMax2016 avatar Apr 09 '23 14:04 MaxMax2016

bandex_test.zip 我这里测试好像没问题

试了下似乎长音频就有问题,原仓库长音频也有问题,所以他们进行了切片,但也有一个bug,例如我在一开始发的那个svc直出的音频,最后一句“紧紧抱着你”和后面的静音消失了,实际上是因为最后一个切片长度过短被drop了,这应该是个bug,我把静音部分延长后就正常了

另外今天又使用NSF_HIFIGAN对超分过的音频再进行了一次增强,这次BWE生成的高频部分也被修复的比较“清澈”了 可以通过DIFFSINGER仓库下inference\vocoder\val_nsf_hifigan.py直接使用

增强前 SVCTEST2.zip 增强后 SVCTEST2FIX.zip

感觉套了一串增强以后已经能和其他svc打了。。。

KakaruHayate avatar Apr 09 '23 14:04 KakaruHayate

好的,其实我先用的nsf增强、都做好了、高频确实很清晰、但是能量不太高,需要手动调EQ;bwe之后做nsf增强是个好主意,之前纠结二选一,哈哈,现在两个一起用。谢谢您的建议!

MaxMax2016 avatar Apr 10 '23 03:04 MaxMax2016

好的,其实我先用的nsf增强、都做好了、高频确实很清晰、但是能量不太高,需要手动调EQ;bwe之后做nsf增强是个好主意,之前纠结二选一,哈哈,现在两个一起用。谢谢您的建议!

现在推理的部分我没有太看明白,所以没搞明白怎么把其他svc用的多的源自DDSPSVC的nsfhifigan enhancer挪过来,合成方式似乎不太一样(mel2wave) 我刚刚pr了一份源自现在openvpi/diffsinger中由wave转化的enhancer(wave2wave),但是里面有很多这个项目用不到的东西(包括一些tts相关diffsinger自己都用不到的东西),也很难指望openvpi会对其优化(这些都是上次重构的遗留,diffsinger在二次重构,这些非核心功能的老旧代码被直接清理了)

不过好像你之前做好了。。。

KakaruHayate avatar Apr 10 '23 04:04 KakaruHayate