Baichuan-7B
Baichuan-7B copied to clipboard
[Question] 请教下原始训练数据集是否开源?
Required prerequisites
- [X] I have read the documentation https://github.com/baichuan-inc/baichuan-7B/blob/HEAD/README.md.
- [X] I have searched the Issue Tracker and Discussions that this hasn't already been reported. (+1 or comment there if it has.)
- [X] Consider asking first in a Discussion.
Questions
想问下数据集后续会开源么
Checklist
- [X] I have provided all relevant and necessary information above.
- [X] I have chosen a suitable title for this issue.
两个月公司,训练数据八成主体就是coomon crawl和悟道了。
目前数据不在本次开源内容内,如果后面有进一步开源计划,会及时在仓库中更新,请持续关注。
估计 不会开源的, 这些数据一般的公司是根本不可能有的。
毕竟是要商业化的公司,核心东西不太可能开源
全部估计很难,但希望开放部分的数据集,至于1.2T Token确实也没必要,这么多不是一般人能玩的。希望能开放个10%,做为后期二次训练的时候,有时候自己的二次训练数据内容很少,两者混合起来训练就不容易过拟合了。
噗!!!
两个月公司,训练数据八成主体就是coomon crawl和悟道了。
老板做搜索的,带了很多数据来创业的吧