Baichuan-7B icon indicating copy to clipboard operation
Baichuan-7B copied to clipboard

评测疑似数据泄漏?

Open huangshenno1 opened this issue 1 year ago • 10 comments

使用CEval的问题作为输入,baichuan-7B模型会自动续写ABCD选项和答案,疑似数据泄漏?

输入: 在Unix中,passwd命令位于____目录中的。

输出: 在Unix中,passwd命令位于____目录中的。 A. /etc/ B. /usr/ C. /bin/ D. /usr/bin/ 答案:A</s>

huangshenno1 avatar Jun 15 '23 08:06 huangshenno1

666

yanzihan1 avatar Jun 15 '23 08:06 yanzihan1

蹲个看看解释

akiori avatar Jun 15 '23 08:06 akiori

蹲一下结论

runwean avatar Jun 15 '23 08:06 runwean

image 问题直接在训练集中了,评测的数据不标准。不过这样的问题很难去避免的吧,毕竟网络上的数据很多很杂,比较难处理。

SMR-S avatar Jun 15 '23 08:06 SMR-S

image

GalSang17 avatar Jun 15 '23 08:06 GalSang17

我百度搜了一下这个样例 网页上有这个样本的 只能说评测集封闭性不行

MRKINKI avatar Jun 15 '23 08:06 MRKINKI

这就是为啥有的公司只敢做PR 不敢公开ckpt。。。LOL

wangshusen avatar Jun 15 '23 08:06 wangshusen

image

试了下续写不是原题,网上类似题目应该挺多的;感觉还好,很难完全避免; btw,评测里面原题长这样:在Unix中,passwd文件是放在____目录中的。,/bin,/lib,/etc,/dev

SHENbeyond avatar Jun 15 '23 08:06 SHENbeyond

我记得CEval的评测集部分是原创且封闭的。示例数据不是

yucc-leon avatar Jun 15 '23 08:06 yucc-leon

但至少说明在同类数据集上进行了大量训练。语言模型对这种形式输出的概率应该是很低的。

bsxxdw avatar Jun 15 '23 09:06 bsxxdw

关注。baichuan-7B高出同规模模型7个点,实在超出常理。一般而言,超过零点几个点属于正常,超过一个点已经惊为天人了。而baichuan-7B的模型结构以及optimizer等都没有创新,甚至还没有采用目前sota技术,实在难以想象。如果训练集中特意加入了人工augment过的、与评测数据集类似的数据,是否违反了”语言模型是零样本学习者“这个出发点,无法与其他模型公平比较?这种为应试而生的模型,是否在下游任务上存在其他语言模型不存在的劣势?

botissue avatar Jun 25 '23 19:06 botissue

另外,将LLaMA-7B、Falcon-7B等主要语料为英文的模型纳入中文评测突出baichuan-7B高出10-20个点是没有任何意义的。对标同是中英双语的ChatGLM-6B,注意到baichuan-7B在中文评测中的优势显著大于英文评测,中文数据对中国人而言更容易操作,这似乎更加验证了data leak或者data augmentation的痕迹。

botissue avatar Jun 25 '23 19:06 botissue

首先声明我们并没有做任何逾越规则的事情。作为官方回复,如下

输入: 在Unix中,passwd命令位于____目录中的。 输出: 在Unix中,passwd命令位于____目录中的。 A. /etc/ B. /usr/ C. /bin/ D. /usr/bin/ 答案:A

我们训练的预料不小的比例是来自于互联网上,而这类关于linux的考试试题是存在的,pretrain的数据包含众多类型的预料,如论文、对话、书籍、考试试卷等等,有一定概率生产这类回答也无可厚非。此问题在搜索引擎中正常搜索,便获得了类似的考试语料,https://easylearn.baidu.com/edu-page/tiangong/questiondetail?id=1768062003432750685&fr=search 如下图, image

我们一直没有close this issue,一方面是我们确实没有针对榜单做任何优化,另一方面我们也相信整个开源社区的使用体验,使用反馈才是最真实的结论。百川选择将模型免费开源给社区的初衷,主要是因为目前缺乏完全开源的中文预训练模型(不包括一些开源的Int8的模型权重),是促进开源社区在中文大语言模型领域的研究。同时我们也将继续在开源方面努力,为开源中文大模型的生态系统提供支持。

zmsn-2077 avatar Jun 29 '23 14:06 zmsn-2077