zlh

Results 30 comments of zlh

1. The Parameter Configurations of the paper [RankT5](https://dl.acm.org/doi/10.1145/3539618.3592047) shows that RankT5 uses T5-large (770M) for initialization. 2. The results in Tables 3 and 4 in our paper are both ranking...

> @rodrigonogueira4 Thanks for your response > > I tried the hyperparams you suggested: > > --train_batch_size=4 --accumulate_grad_batches=32 --optimizer=AdamW --lr=3e-5 --weight_decay=5e-5 > > And so far, the closest result was...

Thank you for your reply. I have it running successfully. However, I found two problems: 1. GROBID seems to only support English? I tried to analyze PDFs in Chinese, but...

thank you for your reply. Below is my pdf and results [error case.zip](https://github.com/kermitt2/grobid_client_python/files/15091253/error.case.zip)

I have uploaded a TREC19 candidate documents in [here](https://github.com/Alibaba-NLP/RankingGPT/tree/main/rankdata/trec19) for reproduction. I will organize ms marco candidate documents and upload them soon.

Hello, the training codes for different LLMs are universal. You only need to modify the corresponding script parameters.

+1。但是没确定出来是什么原因。 仅似乎用chosen数据做SFT,效果能到70. 但是用chosen+rejected数据做DPO,只能到31 差的也太多了

> > +1。但是没确定出来是什么原因。 仅似乎用chosen数据做SFT,效果能到70. 但是用chosen+rejected数据做DPO,只能到31 差的也太多了 > > 你用的哪个评估集? 自己的一个代码生成的评估集合。dpo之后,模型基本上就不能生成正常代码了。很奇怪

> > > > +1。但是没确定出来是什么原因。 仅似乎用chosen数据做SFT,效果能到70. 但是用chosen+rejected数据做DPO,只能到31 差的也太多了 > > > > > > > > > 你用的哪个评估集? > > > > > > 自己的一个代码生成的评估集合。dpo之后,模型基本上就不能生成正常代码了。很奇怪 > > dpo通常只能训练一个epoch,多了显著过拟合。另外lr可以调小一点 另外训练数据使用sft模型自己生产的可能效果会好一些(之前试过开源的数据不如自己跑多条然后让gpt打分构造的数据好) 非常感谢...

> +1,请问你现在进展怎么样了,我也自己设计了一个数据集,大概是4w条,只用chosen的去sft效果不错,但是加上rejected的,模型直接崩溃了,学习率是1e-5 没有用dpo了,放弃了。不知道怎么回事,尝试了学习率、epoch的修改,但是都没救回来。😫