Xiao Mao

Results 4 comments of Xiao Mao

数据集不太好放这里公开,不知道有没有邮箱或者其他联系方式

“有一个问题是,预训练的效果会降低,因为少了一层线性层,维度不对加载不进去。” 如果我理解正确的话,这个是没问题的,我把769维的特征拿去检索之后得到最近的特征之后,丢掉音高那一维变成768维向量,再用模型跑。我甚至没有重新训练模型,只重新训练了特征集(因此有一个参数我可以很快做多次实验取我认为最好的那个)。

@RVC-Boss 我把pitch那一维取mel(使用np.log(1 + freq / 700)这个公式),然后乘上一个参数(我的是维数的平方根乘一个常数),直接塞进去求欧几里得距离。 当然这样肯定不是最好的实现,但由于faiss库能用的实现方式有限,我只好采用了这种实现方式。具体实现你可以参考一下我的fork(https://github.com/matthew99a/Retrieval-based-Voice-Conversion-WebUI)。

“假如拿768去匹配,768语义非常接近但是音高差很多,可能就会匹配到音高距离目标音高差很多的训练集口型,然后后面模型强行把音高抬过去” 没错差不多就是这个意思。