Yu
Yu
同问
中文要分词吧,不然rouge一直是,我今天刚遇到这个问题
同,想用huggingface仓库代码微调,但是奈何模型太大,没法微调
> * 并行,就是将模型的参数,分别放在不同卡上; > * 在训练的时候,各个网络层里面的数据也需要自 这第二个要求是怎么办到的?chatglm模型会把计算的数据自动分配的不同卡上吗
> > > > 下载了chatglm6b-dddd模型,将模型文件和一些json文件放在Chatglm6b_ModelParallel/thuglm 文件夹下。python train_model_all.py运行。仍然报最初的错误,能麻烦作者在你本地最新代码和最新模型再试下嘛? > > 报错如下: > > Traceback (most recent call last): File "/home/87oo/data/workspace/zero_nlp/Chatglm6b_ModelParallel/train_model_all.py", line 322, in trainer.train() File "/home/87oo/data/workspace/zero_nlp/Chatglm6b_ModelParallel/MyTrainer.py", line 1629, in train return...
> > 我这边已经跑通train_chatglm_all.py,想问下并行化条件是不是只需要把权重分布到不同卡上? > > 模型并行的条件: > > 1. 模型并行,就是将模型的参数,分别放在不同卡上; > 2. 在训练的时候,各个网络层里面的数据也需要自动切换到不同卡上; 貌似开启并行的条件不能少了 'model_parallel' 吗? 我同样使用代码让GLM-10b开启并行,但是会报错'GLMForConditionalGeneration' object has no attribute 'model_parallel'
最好是从学习率开始调整,每次调小一个数量级。微调的数据越多越好。