FlagAI
FlagAI copied to clipboard
AquilaChat-7B模型测试方法?
Description
我在使用aquilachat-7B测试C-Eval数据集时,仅得到了25%的准确性(几乎是随机) 请问测试是否有特殊的要求,是我的测试方法(使用了2-shot)有误吗? 请问官方是否测试过,另外计划发布的aquilachat-30B是否有较大提升?
Alternatives
No response
看上去不太对,你是怎么测的,测试的模型是aquilachat-7b还是aquila-7b
测的是aquilachat-7b。 方法是按照测试集c-eval的方法的,同时测的还有baichuan,chatglm2, vicuna, guanaco, anima等,都是相同的方法。目前aquila表现最反常……
测的是aquilachat-7b。 方法是按照测试集c-eval的方法的,同时测的还有baichuan,chatglm2, vicuna, guanaco, anima等,都是相同的方法。目前aquila表现最反常……
建议评测aquila-chat模型时,不用加prompt。
先关闭如有问题重新打开issue。谢谢