shihuai

Results 8 comments of shihuai

> Can you show the config of your training? I use the hubert_base_librispeech.yaml for pretraining, only change the ddp_backend and max_sample_size. ``` common: fp16: true log_format: json log_interval: 200 seed:...

> We believe that the key of training hubert base model is to look at the performance of the pre-trained model on main downstream tasks. You can finetune the pre-trained...

> > > We believe that the key of training hubert base model is to look at the performance of the pre-trained model on main downstream tasks. You can finetune...

> > 一样,loss快速从8.x降到3.x 效果还没评估 看论文似乎也没什么特别的trick,我想后续可能试试把generator部分改成自回归模型和CEloss或许会好一点?但难解决文本+音频流式推理问题 > > 找到bug了,是我的target_units设置有问题,默认用0来pad了,应该用-100 我们目前也是这样设置的,但收敛效果还是不好。

> 又找到bug了 源码里generator的llama是用的LlamaDecoderLayer,但不知道是不是我的transformers版本问题,attention mask维度不匹配。看了一下llama源码,在LlamaModel里会先做attention mask的升维。所以我之前直接用的LlamaModel,输入input_embedding=hidden_states这么搞的。但是其实LlamaModel里会对LlamaDecoderLayer出来的hidden_states做一次norm操作,而llama omni源码用的hidden_states是未经过norm的。可能是这里的区别。我目前loss从18在逐渐收敛,半个epoch到6.x了,看起来还在收敛。 等我有结论再同步hhhh 有兴趣也可以邮箱交流一下:[[email protected]](mailto:[email protected]) 你说的这些情况我们也遇到过,后面是通过手动将attention mask扩展到4维。不过我们还没有做过推理,情况应该也会很差。

这部分也是调整过的,现在我们音频离散化的模型1s是50个token,ctc_upsample_factor现在减少到了12,loss会比之前低,但降了一点后基本就是在震荡了。

现在不知道是不是受模型初始化部分影响,后面再试着改一下这部分。

下面的issue已经有人拉群了。 另外,目前尝试使用短音频、训练步数多一些,是可以达到音频合成效果的。