RAD-NeRF icon indicating copy to clipboard operation
RAD-NeRF copied to clipboard

支持中文语音模型

Open boolw opened this issue 1 year ago • 8 comments

我们使用的中文语音模型有高达3903个维度,能否修改代码让它支持中文语音呢?如果可以,请问该如何修改呢?

boolw avatar Feb 27 '23 03:02 boolw

直接改asrmodel中相应的维度就可以了

QinlongHuang avatar Mar 01 '23 02:03 QinlongHuang

我们试了好几种修改方法但是效果都不好,可以提供一下具体的修改方法吗?非常感谢

boolw avatar Mar 01 '23 02:03 boolw

您说的效果不好是指模型run不起来还是训完结果不太好呢?我也是在hf上随便找了个model, jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn

QinlongHuang avatar Mar 01 '23 10:03 QinlongHuang

我们也是使用的jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn这个模型,我们尝试改了self.audio_in_dim = 3503 和 self.audio_dim = 3503 两次地方,但是训练出来视频口型和语音不对应,效果不理想,可以提供一下具体修改的方案吗?

boolw avatar Mar 01 '23 11:03 boolw

@boolw 请问这个有什么进展吗?

Gpwner avatar Mar 08 '23 07:03 Gpwner

使用的jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn,程序报错误了,错误如下:

image

中文使用新模型对口型矫正有帮助吗?

exceedzhang avatar Apr 27 '23 04:04 exceedzhang

直接改asrmodel中相应的维度就可以了

可以说下具体是修改那个位置吗? 我应该没有修改对地方,运行报错

tom20180101 avatar Oct 07 '23 10:10 tom20180101

我们使用的中文语音模型有高达3903个维度,能否修改代码让它支持中文语音呢?如果可以,请问该如何修改呢?

请问有公开的中文语音数据集么?如果没有的话你们一般都是在哪里收集的呢,我是新手不太了解请多指教,感谢!

RuojiWang avatar Jan 08 '24 03:01 RuojiWang