Results 1 comments of maoxian

@hiyouga 作者您好,我使用A800 80G做baichuan-7B的继续预训练, 全量会OOM,可以帮忙看下这是什么原因吗?感谢 ``` CUDA_VISIBLE_DEVICES=0 python src/train_pt.py \ --model_name_or_path path_to_your_model \ --do_train \ --dataset wiki_demo \ --finetuning_type full \ --output_dir path_to_pt_checkpoint \ --overwrite_cache \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 4...