TencentPretrain
TencentPretrain copied to clipboard
单机8卡A100-80G deepspeed ZERO3 或者 非ZERO3 pretrain LLaMA-7B时,不能充分利用显卡
不用deepspeed会爆显存, 有没有推荐的预训练参数设置,可以全程高效率的跑GPU
根据megatron框架的对比测试,zero3策略,megatron使用from apex.optimizers import FusedAdam as Adam 比 TencentPretrain中使用的deepspeed.ops.adam.DeepSpeedCPUAdam,GPU利用率高