TigerBot icon indicating copy to clipboard operation
TigerBot copied to clipboard

全量训练大概有多少张A800呢?

Open zhuchangjiang opened this issue 1 year ago • 3 comments

zhuchangjiang avatar Jun 07 '23 07:06 zhuchangjiang

7b的话一张A800 40G就可以启动训练

Vivicai1005 avatar Jun 07 '23 07:06 Vivicai1005

我在GPU: 1*A100, CPU: 8, 显存: 40GB, 内存: 50GB上对7B的模型做SFT爆了。

我的训练配置如下:

 deepspeed \
--include="localhost:0" \
./train_sft.py \
--deepspeed ./ds_config/ds_config_zero3.json \
--model_name_or_path /code/TigerBot-sft \
--dataset_name TigerResearch/dev_sft \
--do_train \
--output_dir /tmp/output \
--overwrite_output_dir \
--preprocess_num_workers 8 \
--num_train_epochs 5 \
--learning_rate 5e-6 \
--evaluation_strategy steps \
--eval_steps 10 \
--bf16 True \
--save_strategy steps \
--save_steps 10 \
--save_total_limit 2 \
--logging_steps 10 \
--tf32 True \
--per_device_train_batch_size 1 \
--per_device_eval_batch_size 1

请问能帮忙看看么?

S-Tyra avatar Jun 14 '23 11:06 S-Tyra

7b的话一张A800 40G就可以启动训练

70b呢,有示例吗

Xu-Chen avatar Dec 09 '23 13:12 Xu-Chen