Lebron

Results 4 comments of Lebron

谢谢回复,我注意到论文里面说只有“conversational search and tool learning datasets”没有使用llm score,但我看到代码实现中run_lm_score.py 支持“qa” "convsearch" "lrlm" "chat"四种任务的score的构建,这似乎与论文有些矛盾?还是我理解错误了。以及您的回复只涉及了msmarco,是说其他的task不需要构建llm score嘛

hello,谢谢回复,我还有三个地方没有太理解,可能是我的理解有些偏差,想请问一下: 1. 您说convsearch上次你们并没有用llm score,但论文中的table 4中“w.o. LLM Reward”的实验结果为0.4945,低于加上LLM Reward的实验结果0.5053,文中的意思似乎是使用了LLM Reward会更好 2. 我看到代码中data.py文件中各task的training setting中只有qa和icl默认打开了stable_distill,但论文中table4的结果看起来除了tool分发task之外,stable_distill均能提升模型的性能,所以想问下是否需要对qa和icl以外的其他任务使用stable_distill 3. 想请问下实验中各task的reward temperature以及训练中的超参数等是如何确定的呢。

谢谢回复!想请问下能否提供run_lm_score.py处理之前的数据集文件呢,我观察到如lrlm任务中的样本的score_inputs会被del掉,导致再次运行run_lm_scores.py时会出现如下报错: File "/data/yic/FlagEmbedding-master/FlagEmbedding/llm_embedder/run_lm_score.py", line 98, in _process score_input = score_inputs[i] TypeError: 'NoneType' object is not subscriptable

好的,lrlm在构建llm的inputs有使用template吗,还是直接按照{score_inputs}{query_inputs}{answer_inputs}的格式拼接在一起的?