Zhi Zheng comments

Results 27 comments of


                                            Zhi Zheng

> > 只需要把每个子任务处理成相应的格式，然后把所有数据混合起来微调就可以了。 > > 例如：翻译的任务，处理成这个格式： `{"input": "北京是中国的首都", "prompt": "中翻英", "": "Beijing is the capital of China"}` > > 我看了一下微调代码，最终送入到模型中的其实是字符串： `input北京是中国的首都prompt中翻英Beijing is the capital of China` > > 请问我理解的对吗？谢谢，盼复对的

CPM-Bee数据格式相关问题

> 请问为什么要将模型的输入输出设置为JSON格式呢？当时这样做是有什么考虑吗？或者觉得JSON有什么好处？我们的考虑是减少在大家花在数据处理上的精力，结构化的格式在处理具体的下游任务时也更加方便和可控。另外，如果微调模型的话，也不必拘泥于README中写的几种格式，大家可以自己定义JSON中的键值，只须将输出结果放在``中即可。

[BUG]text 中含有"<"时 tokenizer 报错，

输入里的`

[BUG]text 中含有"<"时 tokenizer 报错，

> 这样处理是否合理？很多代码相关的出现 < 频率很高，转义就改变含义了。还有一些html类的有” “ 等，要写很多规则来判断是否转义这些html无需判断直接转义即可，**模型实际看到的不是`

[BUG]text 中含有"<"时 tokenizer 报错，

> > > 这样处理是否合理？很多代码相关的出现 < 频率很高，转义就改变含义了。还有一些html类的有” “ 等，要写很多规则来判断是否转义 > > > > > > 这些html无需判断直接转义即可，**模型实际看到的不是`

微调GPU需求

Hi, 目前默认支持LoRA微调，暂不支持QLora。 finetune 10B模型需要的显存和文本长度、batch size等有关，目前最少要两张3090。

微调GPU需求

> @zh-zheng 你好，我在2张V100S上微调10B模型还是会OOM，batch size为1 采用增量微调的方式。有什么办法可以进一步降低显存消耗吗两张V100 16G吗？

微调GPU需求

> 两张V100S 32G，因为有其他进程每张卡可用22G左右两张32G的卡，在[`max_length`](https://github.com/OpenBMB/CPM-Bee/blob/main/src/scripts/finetune_cpm_bee.sh#L18)设置较小的情况下（例如32）是可以跑的。

Is there any social media groups that community users can join in？

请添加OpenBMB小助手微信（微信号：OpenBMB），可以拉你进交流群。