youzihaha issues

Repositories
Issues
Comments

Results 3 issues of


                                            youzihaha

启动命令是torchrun --nproc_per_node=2 train.py --train_args_file train_args/sft/qlora/my_llama3-8b-sft-qlora.json 运行后控制台输出的信息是 | INFO | __main__:setup_everything:57 - train_args:TrainingArguments( _n_gpu=1, accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False}, adafactor=False, adam_beta1=0.9, adam_beta2=0.999,...

训练集损失和验证集损失一直维持在一点几，不下降

用您的这个模型，加上llama-chinese框架，训练十几万条数据（通用单轮数据+个人单轮数据），训练的时候，训练集损失和验证集损失一直维持在一点几，不下降，有什么办法吗

youzihaha

你好，请问怎么启用 offload_optimizer

设置了双卡，却信息任然显示单卡。怎么回事？

训练集损失和验证集损失一直维持在一点几，不下降

youzihaha

你好，请问怎么启用 offload_optimizer

设置了双卡，却信息任然显示单卡。怎么回事？

训练集损失 和 验证集损失 一直维持在 一点几，不下降

训练集损失和验证集损失一直维持在一点几，不下降