TigerBot
TigerBot copied to clipboard
全量训练大概有多少张A800呢?
7b的话一张A800 40G就可以启动训练
我在GPU: 1*A100, CPU: 8, 显存: 40GB, 内存: 50GB
上对7B的模型做SFT爆了。
我的训练配置如下:
deepspeed \
--include="localhost:0" \
./train_sft.py \
--deepspeed ./ds_config/ds_config_zero3.json \
--model_name_or_path /code/TigerBot-sft \
--dataset_name TigerResearch/dev_sft \
--do_train \
--output_dir /tmp/output \
--overwrite_output_dir \
--preprocess_num_workers 8 \
--num_train_epochs 5 \
--learning_rate 5e-6 \
--evaluation_strategy steps \
--eval_steps 10 \
--bf16 True \
--save_strategy steps \
--save_steps 10 \
--save_total_limit 2 \
--logging_steps 10 \
--tf32 True \
--per_device_train_batch_size 1 \
--per_device_eval_batch_size 1
请问能帮忙看看么?
7b的话一张A800 40G就可以启动训练
70b呢,有示例吗