-Franklin-

Results 19 comments of -Franklin-

> 问答对数据中存在空值,清理一下数据就可以了 这个空值是指的空格还是就是没有数据啊

> ### Is your feature request related to a problem? Please describe. > 想请教一下,在SFT模型训练过程中,ChatGLM 中间保存模型的验证指标是用的是什么,如何选择最优的checkpoint输出,我这边尝试使用了BLEU等指标,效果并不好,不能反应模型的实际效果 > > ### Solutions > 方便同步一下模型训练过程中的验证指标以及具体模型筛选的细节吗 > > ### Additional context > _No response_ 前辈请问您现在了解到了方法了吗

> 不可以的,因为max epochs会影响默认的cosine lr scheduler,导致不同max epochs设定下同一epoch的训练不是等价的。 前辈请问不量化单纯lora需要多大的显存呀,微调chatglm3

前辈我很您一样的情况报错很类似应该怎么修改啊 ![image](https://github.com/InternLM/xtuner/assets/146100070/3b9afdf8-54d0-46ca-9087-b9fd4c4013f5)

> > 前辈我很您一样的情况报错很类似应该怎么修改啊 ![image](https://private-user-images.githubusercontent.com/146100070/331214939-3b9afdf8-54d0-46ca-9087-b9fd4c4013f5.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTU4NjQ5OTMsIm5iZiI6MTcxNTg2NDY5MywicGF0aCI6Ii8xNDYxMDAwNzAvMzMxMjE0OTM5LTNiOWFmZGY4LTU0ZDAtNDZjYS05MDg3LWI5ZmQ0YzQwMTNmNS5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQwNTE2JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MDUxNlQxMzA0NTNaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xZDNiM2U4NzNmNWRmMWRkMTQzMGRlMjc1MDIyOTg2Yjk4MTgxNjg0YWI2YjY1YzRmM2Y4ZWE0ZmFhZmY2ZGE4JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCZhY3Rvcl9pZD0wJmtleV9pZD0wJnJlcG9faWQ9MCJ9.fhx2j340634qlgHX5BRUCG1K5QhUGku1UWCgZ_AGnnA) > > 采用zero3跑起来了 我是chatglm3微调,应该怎么用zero3 啊

> > 可能是因为 v100 上用不了 flash attention,序列越长,和 4090 的显存差距就会越明显 > > 可以尝试用 zero3 + qlora 来降低显存,否则 llm 部分是没有被切片的,每个显卡上都会有 4bit llm 的显存占用 > > qlora与zero3现在兼容了吗,我是用lora+zero3跑起来的 前辈您的指令是什么呀我的指令如下跑不起来哎,是lora和zero3 ![image](https://github.com/InternLM/xtuner/assets/146100070/dcd07423-334b-4a76-b3fb-129434bf49aa)

> lora 微调的好处就是优化器状态非常少,训练参数也少。在开启 deepspeed 情况下,优化器状态是会切分到多卡的,所以显存占用会变少,但是少的不多。如果你双卡 lora 还是 OOM,可以考虑用 qlora 或者 qlora+zero3 前辈不知道是不是我指令的问题,我是用的 ![image](https://github.com/InternLM/xtuner/assets/146100070/4a454996-1d70-426c-9b0b-303fc5b1a968) 我可以尝试更多的的卡,是不是卡数够多就可以lora 啊

> 你训练命令不对,你这个训练方法是 dpp,并不是用 deepspeed,单卡的话命令是对的。正确命令要加上 --deepspeed deepspeed_zero2 或者 --deepspeed deepspeed_zero3 ![image](https://github.com/InternLM/xtuner/assets/146100070/bc418f9f-9f37-4949-82a4-c7c753a76176) 前辈我换成了你的指令为什么还是不行呀 ![image](https://github.com/InternLM/xtuner/assets/146100070/a041ad65-05fb-4d6e-8d52-09c274a95b2d)

![image](https://github.com/InternLM/xtuner/assets/146100070/eb773140-2b5c-4475-9185-10b9fbb2d2bd) 我找到这个但是不知道在哪修改这个{system}

> > 您好,定位到问题了? 我也有类似的情况,docker里面一直报错 > > 你可以检查一下,你建立容器的时候使用时是否使用了GPU。我是因为没有调用gpu导致的 您好,请问您是如何检测调用GPU的呀我的报错和您的很类似,但是我的好像是因为transformer库的问题 ![image](https://github.com/user-attachments/assets/d4f82c6c-519a-4052-acb4-a4cd8de24f66)