Baichuan-7B icon indicating copy to clipboard operation
Baichuan-7B copied to clipboard

[Question] 请教下原始训练数据集是否开源?

Open yw2278 opened this issue 1 year ago • 6 comments

Required prerequisites

Questions

想问下数据集后续会开源么

Checklist

  • [X] I have provided all relevant and necessary information above.
  • [X] I have chosen a suitable title for this issue.

yw2278 avatar Jun 15 '23 14:06 yw2278

两个月公司,训练数据八成主体就是coomon crawl和悟道了。

154912369 avatar Jun 16 '23 04:06 154912369

目前数据不在本次开源内容内,如果后面有进一步开源计划,会及时在仓库中更新,请持续关注。

zmsn-2077 avatar Jun 16 '23 05:06 zmsn-2077

估计 不会开源的, 这些数据一般的公司是根本不可能有的。

cywjava avatar Jun 16 '23 06:06 cywjava

毕竟是要商业化的公司,核心东西不太可能开源

formath avatar Jun 16 '23 08:06 formath

全部估计很难,但希望开放部分的数据集,至于1.2T Token确实也没必要,这么多不是一般人能玩的。希望能开放个10%,做为后期二次训练的时候,有时候自己的二次训练数据内容很少,两者混合起来训练就不容易过拟合了。

lanny2018 avatar Jun 16 '23 09:06 lanny2018

噗!!!

datalee avatar Jun 17 '23 09:06 datalee

两个月公司,训练数据八成主体就是coomon crawl和悟道了。

老板做搜索的,带了很多数据来创业的吧

kingwpf avatar Aug 07 '23 03:08 kingwpf