seed-vc
seed-vc copied to clipboard
关于歌声转化的请教
我这边使用一小段音频作为 source 音频 和 target 音频尝试歌声转化,感觉效果不太好,具体推理过程如下:
source 歌声音频、target 歌声音频](url)以及生成的歌声音频:https://pan.quark.cn/s/5b438a7ff8bd
python inference.py --source ./dataset/这世界那么多人.m4a \
--target ./dataset/像我这样的人.m4a \
--output ./reconstructed \
--diffusion-steps 30 \
--f0-condition True \
--length-adjust 1.0 \
--inference-cfg-rate 0.7 \
--semi-tone-shift 0 \
--checkpoint ./pth/DiT_seed_v2_uvit_whisper_base_f0_44k_bigvgan_pruned_ft_ema.pth \
--config ./configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
- 请问一下是我使用方法有误吗,还是说需要自己根据某个歌手的数据集训练一个模型然后推理呢
- 如果自己使用 train.py 训练模型需要准备很多 30s 以内的音频,这些音频可以是歌声吗(就带bgm那种)
- 模型推理的时候必须要 source 音频长度少于 30s 吗,这个不能使用一首 3-4min左右的歌作为 source 音频吗
- 我对之前网上那些AI孙燕姿歌声比较感兴趣,不知道这个模型可以不可以实现AI毛不易等自己喜欢的歌手,我想的是准备这些歌手常见的唱歌片段,不知道大佬有什么好的方式来准备这些30s左右的音频
- 你的 source 音频和 target 音频都是有背景音乐的,歌声转换之前先用音乐分离模型把人声分离出来,这样效果会好很多
- 你的 source 音频和 target 音频都是有背景音乐的,歌声转换之前先用音乐分离模型把人声分离出来,这样效果会好很多
请问下有没有比较好的音乐分离模型
- 你的 source 音频和 target 音频都是有背景音乐的,歌声转换之前先用音乐分离模型把人声分离出来,这样效果会好很多
请问下有没有比较好的音乐分离模型
请问找到了吗
我用的这个https://github.com/jianchang512/vocal-separate
我用的这个https://github.com/jianchang512/vocal-separate 配环境会有大问题,记得看issue有解决