HalcyonLiang
HalcyonLiang
> 已解决,7B/consolidated.00.pth的这个文件,我用的是chinese_llama_7b不是llama的原始文件,替换成官网上的pth文件,解码成功 求问,原版的13B 不是两个 consolidated.00.pth consolidated.01.pth 文件吗? 这里的13Bmerge input_file怎么给list?难道还是用7B的?
> > 这学习率 越学越大? > > warmup_lr啊 大佬,我是一直lr是0,这个会是什么原因导致的?一直有这个warning
> > > > 这学习率 越学越大? > > > > > > > > > warmup_lr啊 > > > > > > 大佬,我是一直lr是0,这个会是什么原因导致的?一直有这个warning > > 把deepspeed的config里面fp16和lr scheduler配置去掉,optimizer改adamw试试,按照我的配置试试 这些配置试过了,会有同样的问题,我甚至没有开warmup, 用的bf16,多机多卡,目前的问题是,不确定到底多少个steps lr能够跳出0,有的时候很快就跳出0了,有的时候要几百个steps,有的时候就一直不跳出0。...
> > > > > > 这学习率 越学越大? > > > > > > > > > > > > > > > warmup_lr啊 > > > > > >...
> > > > 有解决方案嘛?兄弟 @HalcyonLiang 我没探究根本原因,只是对比了下不同的配置,用其他配置代替了避免了这个问题 7B 8张A100不用开zero就能训练,没有这个问题, 7B 16张A100 zero2 不开optimizor offload 没有这个问题 13B 16张A100 zero3 不开optimizor和params的offload 没有这个问题 13B 24张A100 zero2 不开optimizor offload 存在有这个问题 (显像看是多卡分割gradient的时候,显存占用差的有些多,要等分配差不多均匀后,LR才会开始逐渐开始warmup的过程) 有时间的话,可以再多测试下,供参考
> 貌似不只是时间间隔问题,接口不返回6月10号(1686355200)及之前的`Chat models`的账单使用量。 看起来是的,大佬有找到其他解决办法吗?
大佬有查到原因吗?
> 配置是全参微调zero3吗?@ZhihuaGao 大佬,混合训练的问题有解决吗?
same, has solved ?