aurae

Results 16 comments of aurae

> @yangjian1218 @likerapkeyboard 重新看了下作者的代码,貌似只加了随机擦除,我测试的时候加的比较多,用了水平翻转、颜色抖动、角度旋转、随机擦除 提醒一下,作者在60、74行有其他的增强,随机翻转、加高斯噪音 不过我训练RAF-DB一直是86%+,到不了87%啊,可能是因为我的batch_size是64的原因? 另外,我直接加载作者提供的pretrain model,在RAF-DB的测试集上测试,acc=0.2216,这么低,不知道为什么,我哪里搞错了吗?请教一下

BELLE的数据贵不贵,还不是公开了,本项目也用到了。敝帚自珍没啥意思吧,自己又不是openai。当然如果这个数据集正在给人家带来巨大价值的除外,如果商业上没啥获利,不如公开了赚个好名声。

可能是因为默认语音数据已经转换为token数据了

> > 可能是因为默认语音数据已经转换为token数据了 > > 这样确实是可以的,提前提取audio token,以类似 “audio” 的token占位,但是这样的话必须修改model 的数据prepare,即在forward中根据token id 插入 project后的audio feature,但是code中显然没有这一步,直接是 LLamaForCausalLLM,显然是不合理的 根据tree/main/speechgpt#train-speechgpt的stage1部分,首先将音频使用hubert转换为语音标签,然后将这些所有的标签作为大模型的预训练部分的输入数据,来做next token的预测训练。完成这步骤后,大模型应该是已经学习到了怎么理解语音token了。 然后在stage2中,使用语音+文本的混合指令数据,进一步训练大模型的跨模态sft能力。stage3好像是输入语音数据,返回也是语音数据的进一步微调。 以上是个人理解,如有错误请大神指导

搜索了全部数据后发现,glaive-function-calling-v2-sharegpt.json文件中有两条样本和代码要求的格式不符合。 两个样本的行数分别是: 1589929 ~ 1589957 629840 ~ 629876 删除这两个样本后,代码运行正常。 @hiyouga 可以更新一下hf上的数据。

> > Furthermore, an exception occurred in the torch.mm within the fbank method, ultimately leading to an unexpected segmentation fault. > > What was the exception and which torch version...