Baichuan-13B baichuan-13B-chat在Ceval、CMMLU、MMLU的复现指标均低于pr结果

baichuan-13B-chat在Ceval、CMMLU、MMLU的复现指标均低于pr结果

Open zhengx18 opened this issue 1 year ago • 2 comments

基于7B开源的验证代码https://github.com/baichuan-inc/Baichuan-7B/tree/main/evaluation ，复现13B-chat, 13B-base的指标结果，发现两个问题： 1、13B-chat在Ceval、CMMLU、MMLU的复现指标分别是46.5、48.99、49.0，而对应的pr值分别是51.5、55.8、52.1。尽管由于生成参数设置存在指标波动，但差距过大，辛苦官方看看是否是评测方式的问题。 2、理论上sft模型指标相比于base模型应该有提升，但是在pr指标上，13B-chat与13B-base几乎不相上下，这是因为什么呢？

Jul 26 '23 08:07 zhengx18

你好想请教一个问题，如果我想评测自己的数据集（微调之后，但是微调数据集就是问答对，并没有选择ABCD，这个需要怎么评估呢

Nov 01 '23 09:11 shudct

你好：才看到邮件哈。你的评测数据集是“对错”吗，如果是的话，我提供两条思路： 1、可以直接让模型生成回复，比如生成yes/ no； 2、可以拆解为2个选项，分别是 A. Yes B. No，这样也可以评测。推荐你关注下opencompass的工作，应该可以学习到很多。

在2023年11月1日 @.***> 写道：

你好想请教一个问题，如果我想评测自己的数据集（微调之后，但是微调数据集就是问答对，并没有选择ABCD，这个需要怎么评估呢

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Nov 07 '23 03:11 zhengx18

Baichuan-13B Baichuan-13B copied to clipboard

baichuan-13B-chat在Ceval、CMMLU、MMLU的复现指标均低于pr结果

Baichuan-13B
Baichuan-13B copied to clipboard