FlagAI icon indicating copy to clipboard operation
FlagAI copied to clipboard

AquilaChat-7B模型测试方法?

Open TonicZhang opened this issue 1 year ago • 2 comments

Description

我在使用aquilachat-7B测试C-Eval数据集时,仅得到了25%的准确性(几乎是随机) 请问测试是否有特殊的要求,是我的测试方法(使用了2-shot)有误吗? 请问官方是否测试过,另外计划发布的aquilachat-30B是否有较大提升?

Alternatives

No response

TonicZhang avatar Jun 28 '23 09:06 TonicZhang

看上去不太对,你是怎么测的,测试的模型是aquilachat-7b还是aquila-7b

Anhforth avatar Jun 30 '23 03:06 Anhforth

测的是aquilachat-7b。 方法是按照测试集c-eval的方法的,同时测的还有baichuan,chatglm2, vicuna, guanaco, anima等,都是相同的方法。目前aquila表现最反常……

TonicZhang avatar Jul 02 '23 01:07 TonicZhang

测的是aquilachat-7b。 方法是按照测试集c-eval的方法的,同时测的还有baichuan,chatglm2, vicuna, guanaco, anima等,都是相同的方法。目前aquila表现最反常……

建议评测aquila-chat模型时,不用加prompt。

ftgreat avatar Aug 04 '23 06:08 ftgreat

先关闭如有问题重新打开issue。谢谢

ftgreat avatar Aug 07 '23 04:08 ftgreat