z-bench
z-bench copied to clipboard
请求添加对谷歌的bart的测试
google的bart最近更新了中文支持, 可以使用目前的测试集进行测试了, 想看一下它和gpt-3.5和gpt-4的差距
自我回复一下, 进行了部分测试, 包括全部垂直能力和部分基础能力, bart似乎不如gpt-3.5, 基础能力比gpt-3.5多错1题(在我测试的那些题目中), 垂直能力多错3题.
在垂直能力中 gpt-3.5共回答对19题, 正确率50% bart共回答对16题, 正确率42.1%
共大家参考