MOSS icon indicating copy to clipboard operation
MOSS copied to clipboard

在8张40g A100上运行微调代码,bsz=1,报显存不够错误,请问最低训练硬件条件是什么?

Open KUANWB opened this issue 1 year ago • 11 comments

KUANWB avatar Apr 27 '23 04:04 KUANWB

这个配置跑最大长度为2048应该是跑不起来的。可以试试缩短输入长度。

xyltt avatar Apr 27 '23 05:04 xyltt

好的, 我把deepspeed里面offload到cpu就可以了

KUANWB avatar Apr 27 '23 07:04 KUANWB

你哪来的这么多张A100,v我50吃顿冒菜呗

jiangxiaohuai520 avatar Apr 27 '23 08:04 jiangxiaohuai520

你管呢

KUANWB avatar Apr 27 '23 10:04 KUANWB

请问int8微调 用一张80G的卡够吗,或者int4呢 /(ㄒoㄒ)/~~

starplatinum3 avatar Apr 28 '23 01:04 starplatinum3

请问int8微调 用一张80G的卡够吗,或者int4呢 /(ㄒoㄒ)/~~

请问int8微调 用一张80G的卡够吗?

hjing100 avatar May 06 '23 03:05 hjing100

这个配置跑最大长度为2048应该是跑不起来的。可以试试缩短输入长度。

请问finetune的时候想修改成1024,要如何操作?

zweny avatar May 11 '23 13:05 zweny

一张A100(80G)微调不动

BigTaige avatar May 16 '23 09:05 BigTaige

好的, 我把deepspeed里面offload到cpu就可以了

非常感谢 把deepspeed offload到cpu 可行

lhtpluto avatar May 17 '23 03:05 lhtpluto

好的, 我把deepspeed里面offload到cpu就可以了

请问是下面这样修改config/sft.yaml吗? deepspeed_config: offload_optimizer_device: cpu offload_param_device: cpu

修改后,又报了另一个错, deepspeed.runtime.zero.utils.zero runtimeexception client provided optimizer...... 请问有没有遇到?

insist93 avatar May 17 '23 09:05 insist93

这个配置跑最大长度为2048应该是跑不起来的。可以试试缩短输入长度。

请问finetune的时候想修改成1024,要如何操作? 尝试在finetune_moss.py中找到以下语句,看到2048改成1024

if len(input_ids + cur_turn_ids) > 2048: break

                    input_ids.extend(cur_turn_ids)
                    no_loss_spans.extend(cur_no_loss_spans)

                if len(input_ids) == len(instruction_ids):
                    continue

                assert len(input_ids) > 0 and len(input_ids) <= 2048

lhtpluto avatar May 30 '23 07:05 lhtpluto