TigerBot 训练垂直领域大模型应该基于哪个版本？

训练垂直领域大模型应该基于哪个版本？

Open Zheng-Jay opened this issue 10 months ago • 4 comments

我们收集了垂直领域的预训练数据和指令数据（混合了通用数据），应该在tigerbot-base还是tigerbot-chat上二次开发呢？我看好像大家都是基于base做二次pt和sft，但是我不想浪费掉chat版本训的数据，基于哪个版本训效果更优呢？

Apr 02 '24 06:04 Zheng-Jay

对一些数据不大的领域，我们是用chat开始的

Apr 02 '24 12:04 chentigerye

对一些数据不大的领域，我们是用chat开始的

陈总，为什么数据不大就选择从chat开始呢？另外，请问数据不大是怎么界定的呢，我们预训练数据用tigerbot分词后大概10B，instruct数据大概在700w条

Apr 02 '24 14:04 Zheng-Jay

比如tigerbot预训练用了2.5TB token, 如果新的数据是这个的1%量级，那就是不大，如果是2成以上，那就是大。

从chat开始好处是保留的通用的问答和指令遵循能力，如果从base开始，那之前的chat tuning要重跑。

10B是什么大小， 10 billion token?

Apr 03 '24 05:04 chentigerye

比如tigerbot预训练用了2.5TB token, 如果新的数据是这个的1%量级，那就是不大，如果是2成以上，那就是大。

从chat开始好处是保留的通用的问答和指令遵循能力，如果从base开始，那之前的chat tuning要重跑。

10B是什么大小， 10 billion token?

是的，10B指的是10 billion token，我在wiki里看到“TigerBot-13B-base: 基于Llama-2-13B继续预训练300B tokens”，10/300 < 20%，那我们尝试下从chat开始

Apr 06 '24 12:04 Zheng-Jay