Baichuan-13B icon indicating copy to clipboard operation
Baichuan-13B copied to clipboard

baichuan-13B-chat在Ceval、CMMLU、MMLU的复现指标均低于pr结果

Open zhengx18 opened this issue 1 year ago • 2 comments

基于7B开源的验证代码https://github.com/baichuan-inc/Baichuan-7B/tree/main/evaluation ,复现13B-chat, 13B-base的指标结果,发现两个问题: 1、13B-chat在Ceval、CMMLU、MMLU的复现指标分别是46.5、48.99、49.0,而对应的pr值分别是51.5、55.8、52.1。 尽管由于生成参数设置存在指标波动,但差距过大,辛苦官方看看是否是评测方式的问题。 2、理论上sft模型指标相比于base模型应该有提升,但是在pr指标上,13B-chat与13B-base几乎不相上下,这是因为什么呢?

zhengx18 avatar Jul 26 '23 08:07 zhengx18

你好想请教一个问题,如果我想评测自己的数据集(微调之后,但是微调数据集就是问答对,并没有选择ABCD,这个需要怎么评估呢

shudct avatar Nov 01 '23 09:11 shudct

你好: 才看到邮件哈。你的评测数据集是“对错”吗,如果是的话,我提供两条思路: 1、可以直接让模型生成回复,比如生成yes/ no; 2、可以拆解为2个选项,分别是 A. Yes B. No,这样也可以评测。 推荐你关注下opencompass的工作,应该可以学习到很多。

| | zhengxue1997 | | @.*** | 签名由网易邮箱大师定制

在2023年11月1日 @.***> 写道:

你好想请教一个问题,如果我想评测自己的数据集(微调之后,但是微调数据集就是问答对,并没有选择ABCD,这个需要怎么评估呢

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

zhengx18 avatar Nov 07 '23 03:11 zhengx18