yangliuIOC comments

Results 7 comments of


                                            yangliuIOC

这就对了

暂时是未解之谜

应该是加入你想要的数据进入数据集，他是微调的，以前的知识保留的比较少，

> @songsa1 推荐友情链接里的 chatglm-tuning 请问，你用过lora跑过这个广告数据集么，

我也是

我的意思是，reward model 是hf训练出来的，而不是sft 训练出来的。

lora 开大，要不他老嘴硬，在家丰富的数据

yangliuIOC