FlagAI AquilaChat-7B模型测试方法？

AquilaChat-7B模型测试方法？

Open TonicZhang opened this issue 1 year ago • 2 comments

我在使用aquilachat-7B测试C-Eval数据集时，仅得到了25%的准确性（几乎是随机）请问测试是否有特殊的要求，是我的测试方法（使用了2-shot）有误吗？请问官方是否测试过，另外计划发布的aquilachat-30B是否有较大提升？

No response

Jun 28 '23 09:06 TonicZhang

看上去不太对，你是怎么测的，测试的模型是aquilachat-7b还是aquila-7b

Jun 30 '23 03:06 Anhforth

测的是aquilachat-7b。方法是按照测试集c-eval的方法的，同时测的还有baichuan，chatglm2, vicuna, guanaco, anima等，都是相同的方法。目前aquila表现最反常……

Jul 02 '23 01:07 TonicZhang

测的是aquilachat-7b。方法是按照测试集c-eval的方法的，同时测的还有baichuan，chatglm2, vicuna, guanaco, anima等，都是相同的方法。目前aquila表现最反常……

建议评测aquila-chat模型时，不用加prompt。

Aug 04 '23 06:08 ftgreat

先关闭如有问题重新打开issue。谢谢

Aug 07 '23 04:08 ftgreat