HalcyonLiang comments

Results 9 comments of


                                            HalcyonLiang

BELLE-LLaMA-EXT-13B 模型解码失败

> 已解决，7B/consolidated.00.pth的这个文件，我用的是chinese_llama_7b不是llama的原始文件，替换成官网上的pth文件，解码成功求问，原版的13B 不是两个 consolidated.00.pth consolidated.01.pth 文件吗？这里的13Bmerge input_file怎么给list？难道还是用7B的？

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

> > 这学习率越学越大？ > > warmup_lr啊大佬，我是一直lr是0，这个会是什么原因导致的？一直有这个warning

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

> > > > 这学习率越学越大？ > > > > > > > > > warmup_lr啊 > > > > > > 大佬，我是一直lr是0，这个会是什么原因导致的？一直有这个warning > > 把deepspeed的config里面fp16和lr scheduler配置去掉，optimizer改adamw试试，按照我的配置试试这些配置试过了，会有同样的问题，我甚至没有开warmup, 用的bf16，多机多卡，目前的问题是，不确定到底多少个steps lr能够跳出0，有的时候很快就跳出0了，有的时候要几百个steps，有的时候就一直不跳出0。...

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

> > > > > > 这学习率越学越大？ > > > > > > > > > > > > > > > warmup_lr啊 > > > > > >...

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

> > > > 有解决方案嘛？兄弟 @HalcyonLiang 我没探究根本原因，只是对比了下不同的配置，用其他配置代替了避免了这个问题 7B 8张A100不用开zero就能训练，没有这个问题， 7B 16张A100 zero2 不开optimizor offload 没有这个问题 13B 16张A100 zero3 不开optimizor和params的offload 没有这个问题 13B 24张A100 zero2 不开optimizor offload 存在有这个问题（显像看是多卡分割gradient的时候，显存占用差的有些多，要等分配差不多均匀后，LR才会开始逐渐开始warmup的过程）有时间的话，可以再多测试下，供参考

HalcyonLiang

BELLE-LLaMA-EXT-13B 模型解码失败

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

出现如下warning: tried to get lr value before scheduler/optimizer started stepping, returning lr=0

🐞 错误报告余额查询和openai后台不一致

[BUG] qwen-vl 第一阶段训练loss下降后升高了，模型训崩了

纯文本指令数据和多模态指令数据混在一起finetune

what(): CUDA error: an illegal memory access was encountered