Bert-VITS2 icon indicating copy to clipboard operation
Bert-VITS2 copied to clipboard

Support infer ZH_Clap models

Open YYuX-1145 opened this issue 1 year ago • 4 comments

  • 暂定中文特化版代号为: ZH_Clap
  • 本地测试通过,下一个版本需要更新gradio推理UI

YYuX-1145 avatar Jan 05 '24 14:01 YYuX-1145

不需对主分支添加推理支持,因特化版本不在主线内

Stardust-minus avatar Jan 06 '24 03:01 Stardust-minus

的确不在主线内,但是考虑到其出色的表现,特化版用的人应该也不会少。方便起见我还是认为添加兼容推理支持比较好。

YYuX-1145 avatar Jan 06 '24 04:01 YYuX-1145

暂时搁置,后续可能会考虑给此版本添加英语支持,之后并入主线。 pr可以保持开启状态

Stardust-minus avatar Jan 06 '24 04:01 Stardust-minus

好的

YYuX-1145 avatar Jan 06 '24 04:01 YYuX-1145

好的

你好,请问新增这个分支代码,是用来在基座模型上fine-tune用的,还是可以用来训练多说话人的基座模型的? 另外看了一下代码,既然是中文特制版本,TextEncoder里为啥还保留language embedding呢?

JohnHerry avatar Jan 08 '24 07:01 JohnHerry

再请教一下,对于中英文混合的数据怎么组织训练呢? 比如“他见了我就热情的喊hello” ,这里边有中文Bert的特征,也有英文Bert的特征,中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢?因为英文Bert可能是面向词根组成的,但是英文单词的音素个数不一定跟这个单词的词根数一致,这个怎么对齐呢?

JohnHerry avatar Jan 08 '24 08:01 JohnHerry

再请教一下,对于中英文混合的数据怎么组织训练呢? 比如“他见了我就热情的喊hello” ,这里边有中文Bert的特征,也有英文Bert的特征,中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢?因为英文Bert可能是面向词根组成的,但是英文单词的音素个数不一定跟这个单词的词根数一致,这个怎么对齐呢?

我也有同样 的疑问,一直没找到答案

yihuitang avatar Jan 08 '24 12:01 yihuitang

再请教一下,对于中英文混合的数据怎么组织训练呢? 比如“他见了我就热情的喊hello” ,这里边有中文Bert的特征,也有英文Bert的特征,中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢?因为英文Bert可能是面向词根组成的,但是英文单词的音素个数不一定跟这个单词的词根数一致,这个怎么对齐呢?

我也有同样 的疑问,一直没找到答案

训练语料不支持混合,只支持单语言,这种语料需要扔掉

Stardust-minus avatar Jan 08 '24 12:01 Stardust-minus

再请教一下,对于中英文混合的数据怎么组织训练呢? 比如“他见了我就热情的喊hello” ,这里边有中文Bert的特征,也有英文Bert的特征,中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢?因为英文Bert可能是面向词根组成的,但是英文单词的音素个数不一定跟这个单词的词根数一致,这个怎么对齐呢?

我也有同样 的疑问,一直没找到答案

训练语料不支持混合,只支持单语言,这种语料需要扔掉

推理的时候支持混合语言吗 ?如果支持,英文的单词和音素怎么对齐

yihuitang avatar Jan 09 '24 00:01 yihuitang

再请教一下,对于中英文混合的数据怎么组织训练呢? 比如“他见了我就热情的喊hello” ,这里边有中文Bert的特征,也有英文Bert的特征,中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢?因为英文Bert可能是面向词根组成的,但是英文单词的音素个数不一定跟这个单词的词根数一致,这个怎么对齐呢?

我也有同样 的疑问,一直没找到答案

训练语料不支持混合,只支持单语言,这种语料需要扔掉

推理的时候支持混合语言吗 ?如果支持,英文的单词和音素怎么对齐

估计也不会支持。这个Base模型你训练过吗?有什么经验呢?我这里试过很难训练,非常不稳定。可能有些部件训练base模型时跟 这个开源代码里是不一样的。

JohnHerry avatar Jan 09 '24 01:01 JohnHerry

再请教一下,对于中英文混合的数据怎么组织训练呢? 比如“他见了我就热情的喊hello” ,这里边有中文Bert的特征,也有英文Bert的特征,中文Bert特征可以每个汉字BERT横向复制到跟拼音长度一致。英文Bert特征呢?因为英文Bert可能是面向词根组成的,但是英文单词的音素个数不一定跟这个单词的词根数一致,这个怎么对齐呢?

我也有同样 的疑问,一直没找到答案

训练语料不支持混合,只支持单语言,这种语料需要扔掉

推理的时候支持混合语言吗 ?如果支持,英文的单词和音素怎么对齐

估计也不会支持。这个Base模型你训练过吗?有什么经验呢?我这里试过很难训练,非常不稳定。可能有些部件训练base模型时跟 这个开源代码里是不一样的。

1.Base模型使用该repo的代码,没有更改。但是在训练数据,方法和超参上都有一些trick,非常复杂,不推荐任何人训练。 2.支持混合语言推理,使用切分后分开生成再拼接的办法。这些都有实现,请您多看代码,少问问题,

Stardust-minus avatar Jan 09 '24 01:01 Stardust-minus

  • 暂定中文特化版代号为: ZH_Clap
  • 本地测试通过,下一个版本需要更新gradio推理UI

Zh clap Extra:中文特化版本 模型在哪里可以下载呢?

JJun-Guo avatar Jan 10 '24 04:01 JJun-Guo