Dinghao Zhou

Results 114 comments of Dinghao Zhou

> 周神,是不是已经可以用于wenet训练了,只是少个pipeline,我这就拿来试试,赞一个 训是可以训, 原始模型是两倍将采样 ddp模式下特别消耗显存 你可以先用deepspeed训

这几个是预训练有关的 fintune不影响, 这两天我也在看这个pr 看下还有什么diff的

@fclearner 可以按照当前的代码, 然后base encoder里边的after norm去掉 跑下, 我这边跑了一晚上(没跑完),看着像在收敛中 ctc_weight: 0.3 ```yaml dataset_conf: filter_conf: max_length: 4800 min_length: 10 token_max_length: 100 token_min_length: 1 resample_conf: resample_rate: 16000 speed_perturb: true **feats_type: 'w2vbert_fbank'** fbank_conf: num_mel_bins: 80...

正常conformer 实现不应该有after norm的最后一个norm,就是最顶层的最后一个(transformer pre norm需要) 加decoder的想法是 后边换成whisper的decoder 或者llm的decoder, 目前可以采用multi lr的方式的去训, 可预期decoder不会好于ctc

可用 adapter , 谷歌有些modular的speech 的paper 就是这么嫁接模型的 ,llm也有些类似的 顺别说下, 接whisper只是为了做识别, 接llm就走了speechLLM的路子了 可做语音理解等

> 感觉效果不太行,我拿来训几百小时粤语,没有whisper+lora微调效果好,差了五六个点的cer,而且奇怪的是我拿https://huggingface.co/TencentGameMate/chinese-hubert-large 这个hubert模型微调的效果比w2vbert2要好,可能是中文数据预训练的不够多吧 > > hugface上有w2vbert2的fintune代码 有卡有时间的话 帮忙跑下aishell的 看下hg能到多少, 我过几天debug下 先和hg上对齐下, 现在不确定实现是否有不一致

> > 周神,是不是已经可以用于wenet训练了,只是少个pipeline,我这就拿来试试,赞一个 > > 训是可以训, 原始模型是两倍将采样 ddp模式下特别消耗显存 你可以先用deepspeed训 显存问题,可先考虑:https://github.com/wenet-e2e/wenet/pull/2550

是需要 参考llama3.1 speech的部分