seed-vc icon indicating copy to clipboard operation
seed-vc copied to clipboard

关于歌声转化的请教

Open EricPengShuai opened this issue 7 months ago • 5 comments

我这边使用一小段音频作为 source 音频 和 target 音频尝试歌声转化,感觉效果不太好,具体推理过程如下:

source 歌声音频、target 歌声音频](url)以及生成的歌声音频:https://pan.quark.cn/s/5b438a7ff8bd

python inference.py --source ./dataset/这世界那么多人.m4a \
--target ./dataset/像我这样的人.m4a \
--output ./reconstructed \
--diffusion-steps 30 \
--f0-condition True \
--length-adjust 1.0 \
--inference-cfg-rate 0.7 \
--semi-tone-shift 0 \
--checkpoint ./pth/DiT_seed_v2_uvit_whisper_base_f0_44k_bigvgan_pruned_ft_ema.pth \
--config ./configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
  1. 请问一下是我使用方法有误吗,还是说需要自己根据某个歌手的数据集训练一个模型然后推理呢
  2. 如果自己使用 train.py 训练模型需要准备很多 30s 以内的音频,这些音频可以是歌声吗(就带bgm那种)
  3. 模型推理的时候必须要 source 音频长度少于 30s 吗,这个不能使用一首 3-4min左右的歌作为 source 音频吗
  4. 我对之前网上那些AI孙燕姿歌声比较感兴趣,不知道这个模型可以不可以实现AI毛不易等自己喜欢的歌手,我想的是准备这些歌手常见的唱歌片段,不知道大佬有什么好的方式来准备这些30s左右的音频

EricPengShuai avatar May 01 '25 12:05 EricPengShuai

  1. 你的 source 音频和 target 音频都是有背景音乐的,歌声转换之前先用音乐分离模型把人声分离出来,这样效果会好很多

StellanLi avatar May 05 '25 13:05 StellanLi

  1. 你的 source 音频和 target 音频都是有背景音乐的,歌声转换之前先用音乐分离模型把人声分离出来,这样效果会好很多

请问下有没有比较好的音乐分离模型

scutfrank avatar May 09 '25 09:05 scutfrank

  1. 你的 source 音频和 target 音频都是有背景音乐的,歌声转换之前先用音乐分离模型把人声分离出来,这样效果会好很多

请问下有没有比较好的音乐分离模型

请问找到了吗

hjj-lmx avatar May 10 '25 09:05 hjj-lmx

我用的这个https://github.com/jianchang512/vocal-separate

Cfu4536 avatar Jun 18 '25 18:06 Cfu4536

我用的这个https://github.com/jianchang512/vocal-separate 配环境会有大问题,记得看issue有解决

Cfu4536 avatar Jun 18 '25 18:06 Cfu4536