seed-vc 关于歌声转化的请教

我这边使用一小段音频作为 source 音频和 target 音频尝试歌声转化，感觉效果不太好，具体推理过程如下：

source 歌声音频、target 歌声音频](url)以及生成的歌声音频：https://pan.quark.cn/s/5b438a7ff8bd

python inference.py --source ./dataset/这世界那么多人.m4a \
--target ./dataset/像我这样的人.m4a \
--output ./reconstructed \
--diffusion-steps 30 \
--f0-condition True \
--length-adjust 1.0 \
--inference-cfg-rate 0.7 \
--semi-tone-shift 0 \
--checkpoint ./pth/DiT_seed_v2_uvit_whisper_base_f0_44k_bigvgan_pruned_ft_ema.pth \
--config ./configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml

请问一下是我使用方法有误吗，还是说需要自己根据某个歌手的数据集训练一个模型然后推理呢
如果自己使用 train.py 训练模型需要准备很多 30s 以内的音频，这些音频可以是歌声吗（就带bgm那种）
模型推理的时候必须要 source 音频长度少于 30s 吗，这个不能使用一首 3-4min左右的歌作为 source 音频吗
我对之前网上那些AI孙燕姿歌声比较感兴趣，不知道这个模型可以不可以实现AI毛不易等自己喜欢的歌手，我想的是准备这些歌手常见的唱歌片段，不知道大佬有什么好的方式来准备这些30s左右的音频