llama-trl tuning_lm_with_rl 有完整运行成功的案例嘛？

tuning_lm_with_rl 有完整运行成功的案例嘛？

Open jerry1993-tech opened this issue 1 year ago • 1 comments

accelerate launch --multi_gpu --num_machines 1 --num_processes 8
tuning_lm_with_rl.py
--log_with wandb
--model_name <LLAMA_FINETUNED_MODEL>
--reward_model_name <LLAMA_RM_MODEL>
--adafactor False
--tokenizer_name <LLAMA_TOKENIZER>
--save_freq 100
--output_max_length 128
--batch_size 8
--gradient_accumulation_steps 8
--batched_gen True
--ppo_epochs 4
--learning_rate 1.4e-5
--early_stopping True
--output_dir './checkpoints/tuning_llama_rl/'

请问 <LLAMA_RM_MODEL> 是指的哪个文件？是「Wenzhong-GPT2-110M_peft_gpt-4-llm_rm_xxx_xx」还是原base模型？求解答

想跟您联系与合作，谢谢。我的微信：xyj15764222030

May 23 '23 09:05 jerry1993-tech

llama-trl llama-trl copied to clipboard

tuning_lm_with_rl 有完整运行成功的案例嘛？

llama-trl
llama-trl copied to clipboard