Zhi Zheng
Zhi Zheng
只需要把每个子任务处理成相应的格式,然后把所有数据混合起来微调就可以了。
> > 只需要把每个子任务处理成相应的格式,然后把所有数据混合起来微调就可以了。 > > 例如:翻译的任务,处理成这个格式: `{"input": "北京是中国的首都", "prompt": "中翻英", "": "Beijing is the capital of China"}` > > 我看了一下微调代码,最终送入到模型中的其实是字符串: `input北京是中国的首都prompt中翻英Beijing is the capital of China` > > 请问我理解的对吗?谢谢,盼复 对的
> 请问为什么要将模型的输入输出设置为JSON格式呢? 当时这样做是有什么考虑吗?或者觉得JSON有什么好处? 我们的考虑是减少在大家花在数据处理上的精力,结构化的格式在处理具体的下游任务时也更加方便和可控。另外,如果微调模型的话,也不必拘泥于README中写的几种格式,大家可以自己定义JSON中的键值,只须将输出结果放在``中即可。
> 这样处理是否合理?很多代码相关的出现 < 频率很高,转义就改变含义了。还有一些html类的 有” “ 等,要写很多规则来判断是否转义 这些html无需判断直接转义即可,**模型实际看到的不是`
> > > 这样处理是否合理?很多代码相关的出现 < 频率很高,转义就改变含义了。还有一些html类的 有” “ 等,要写很多规则来判断是否转义 > > > > > > 这些html无需判断直接转义即可,**模型实际看到的不是`
Hi, 目前默认支持LoRA微调,暂不支持QLora。 finetune 10B模型需要的显存和文本长度、batch size等有关,目前最少要两张3090。
> @zh-zheng 你好,我在2张V100S上微调10B模型还是会OOM,batch size为1 采用增量微调的方式。有什么办法可以进一步降低显存消耗吗 两张V100 16G吗?
> 两张V100S 32G,因为有其他进程每张卡可用22G左右 两张32G的卡,在[`max_length`](https://github.com/OpenBMB/CPM-Bee/blob/main/src/scripts/finetune_cpm_bee.sh#L18)设置较小的情况下(例如32)是可以跑的。
请添加OpenBMB小助手微信(微信号:OpenBMB),可以拉你进交流群。