kaisersama112

Results 2 comments of kaisersama112
trafficstars

目前我将模型转移到服务器进行微调  1. 本地微调模型为internlm2-chat-7b 我通过更改学习率为0.1 经过接近20个iter 还是会出现相同情况   2. 同时目前服务器采用的与本地相同的数据集 模型改为internlm-chat-7b 目前并没有出现梯度爆炸问题, 3. 后续我会在服务器也对internlm2-chat-7b进行微调复现 看下问题是否还存在 - ----------------- 原始邮件 ------------------ 发件人: "InternLM/xtuner" ***@***.***>; 发送时间: 2024年3月22日(星期五) 晚上7:14 ***@***.***>; ***@***.******@***.***>; 主题: Re: [InternLM/xtuner] 复现官方教程出现 grad_norm:nan (Issue #507) 尝试多训几百个iter? 在某些模型、数据上确实会出现一段时间的grad_norm...

对了 尝试多训几百个iter 我觉得并无多大意义了 本地loss 已经开始趋近于无限大