Bert-VITS2 Support infer ZH

暂定中文特化版代号为： ZH_Clap
本地测试通过，下一个版本需要更新gradio推理UI

Jan 05 '24 14:01 YYuX-1145

不需对主分支添加推理支持，因特化版本不在主线内

Jan 06 '24 03:01 Stardust-minus

的确不在主线内，但是考虑到其出色的表现，特化版用的人应该也不会少。方便起见我还是认为添加兼容推理支持比较好。

Jan 06 '24 04:01 YYuX-1145

暂时搁置，后续可能会考虑给此版本添加英语支持，之后并入主线。 pr可以保持开启状态

Jan 06 '24 04:01 Stardust-minus

好的

Jan 06 '24 04:01 YYuX-1145

好的

你好，请问新增这个分支代码，是用来在基座模型上fine-tune用的，还是可以用来训练多说话人的基座模型的？另外看了一下代码，既然是中文特制版本，TextEncoder里为啥还保留language embedding呢？

Jan 08 '24 07:01 JohnHerry

再请教一下，对于中英文混合的数据怎么组织训练呢？比如“他见了我就热情的喊hello” ，这里边有中文Bert的特征，也有英文Bert的特征，中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢？因为英文Bert可能是面向词根组成的，但是英文单词的音素个数不一定跟这个单词的词根数一致，这个怎么对齐呢？

Jan 08 '24 08:01 JohnHerry

再请教一下，对于中英文混合的数据怎么组织训练呢？比如“他见了我就热情的喊hello” ，这里边有中文Bert的特征，也有英文Bert的特征，中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢？因为英文Bert可能是面向词根组成的，但是英文单词的音素个数不一定跟这个单词的词根数一致，这个怎么对齐呢？

我也有同样的疑问，一直没找到答案

Jan 08 '24 12:01 yihuitang

再请教一下，对于中英文混合的数据怎么组织训练呢？比如“他见了我就热情的喊hello” ，这里边有中文Bert的特征，也有英文Bert的特征，中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢？因为英文Bert可能是面向词根组成的，但是英文单词的音素个数不一定跟这个单词的词根数一致，这个怎么对齐呢？

我也有同样的疑问，一直没找到答案

训练语料不支持混合，只支持单语言，这种语料需要扔掉

Jan 08 '24 12:01 Stardust-minus

再请教一下，对于中英文混合的数据怎么组织训练呢？比如“他见了我就热情的喊hello” ，这里边有中文Bert的特征，也有英文Bert的特征，中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢？因为英文Bert可能是面向词根组成的，但是英文单词的音素个数不一定跟这个单词的词根数一致，这个怎么对齐呢？

我也有同样的疑问，一直没找到答案

训练语料不支持混合，只支持单语言，这种语料需要扔掉

推理的时候支持混合语言吗？如果支持，英文的单词和音素怎么对齐

Jan 09 '24 00:01 yihuitang

再请教一下，对于中英文混合的数据怎么组织训练呢？比如“他见了我就热情的喊hello” ，这里边有中文Bert的特征，也有英文Bert的特征，中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢？因为英文Bert可能是面向词根组成的，但是英文单词的音素个数不一定跟这个单词的词根数一致，这个怎么对齐呢？

我也有同样的疑问，一直没找到答案

训练语料不支持混合，只支持单语言，这种语料需要扔掉

推理的时候支持混合语言吗？如果支持，英文的单词和音素怎么对齐

估计也不会支持。这个Base模型你训练过吗？有什么经验呢？我这里试过很难训练，非常不稳定。可能有些部件训练base模型时跟这个开源代码里是不一样的。

Jan 09 '24 01:01 JohnHerry

再请教一下，对于中英文混合的数据怎么组织训练呢？比如“他见了我就热情的喊hello” ，这里边有中文Bert的特征，也有英文Bert的特征，中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢？因为英文Bert可能是面向词根组成的，但是英文单词的音素个数不一定跟这个单词的词根数一致，这个怎么对齐呢？

我也有同样的疑问，一直没找到答案

训练语料不支持混合，只支持单语言，这种语料需要扔掉

推理的时候支持混合语言吗？如果支持，英文的单词和音素怎么对齐

估计也不会支持。这个Base模型你训练过吗？有什么经验呢？我这里试过很难训练，非常不稳定。可能有些部件训练base模型时跟这个开源代码里是不一样的。

1.Base模型使用该repo的代码，没有更改。但是在训练数据，方法和超参上都有一些trick，非常复杂，不推荐任何人训练。 2.支持混合语言推理，使用切分后分开生成再拼接的办法。这些都有实现，请您多看代码，少问问题，

Jan 09 '24 01:01 Stardust-minus

暂定中文特化版代号为： ZH_Clap

本地测试通过，下一个版本需要更新gradio推理UI

Zh clap Extra:中文特化版本模型在哪里可以下载呢？

Jan 10 '24 04:01 JJun-Guo

Bert-VITS2
Bert-VITS2 copied to clipboard

Support infer ZH_Clap models

Bert-VITS2 Bert-VITS2 copied to clipboard

Support infer ZH_Clap models

Bert-VITS2
Bert-VITS2 copied to clipboard