月亮superman
Results
1
issues of
月亮superman
基于7B开源的验证代码https://github.com/baichuan-inc/Baichuan-7B/tree/main/evaluation ,复现13B-chat, 13B-base的指标结果,发现两个问题: 1、13B-chat在Ceval、CMMLU、MMLU的复现指标分别是46.5、48.99、49.0,而对应的pr值分别是51.5、55.8、52.1。 尽管由于生成参数设置存在指标波动,但差距过大,辛苦官方看看是否是评测方式的问题。 2、理论上sft模型指标相比于base模型应该有提升,但是在pr指标上,13B-chat与13B-base几乎不相上下,这是因为什么呢?