BELLE icon indicating copy to clipboard operation
BELLE copied to clipboard

请问有尝试过bloom其他参数规模的模型进行finetune吗?效果如何?

Open ZhonghaoWang opened this issue 1 year ago • 4 comments

研发者你好,我们对这个工作非常感兴趣,想要进行复现,但受限于算力和显存问题,bloom-7b可能train不动,所以想请教下你们是否有尝试过bloom小参数规模的模型进行finetune吗?效果如何? 不确定更小的模型是否会有拟合能力不足的问题导致复现失败。

ZhonghaoWang avatar Mar 23 '23 01:03 ZhonghaoWang

小参数模型指令泛化理解上可能有瓶颈,所以我们这次选择了7b,后续评估流程完善后,我们也会做相关尝试

mabaochang avatar Mar 23 '23 04:03 mabaochang

小参数模型指令泛化理解上可能有瓶颈,所以我们这次选择了7b,后续评估流程完善后,我们也会做相关尝试

感谢解答,额外想请问是直接clm训练的吗?还是有其他multitask等操作。 以及后续是否有开源训练代码的计划呢?

ZhonghaoWang avatar Mar 23 '23 09:03 ZhonghaoWang

能否提供finetune代码呢

weberrr avatar Mar 24 '23 07:03 weberrr

能否提供finetune代码呢

作者还没回复,但是根据项目描述,如果没有额外操作的话,应该用的是这个:https://github.com/tatsu-lab/stanford_alpaca/blob/main/train.py

ZhonghaoWang avatar Mar 24 '23 09:03 ZhonghaoWang

https://github.com/vxfla/kanchil 试了下在1B的MT5上跑,微调后的T5能读懂人类指令,在部分问题上答得还不错,不过经常胡说八道。

vxfla avatar Mar 29 '23 06:03 vxfla