Charent

Results 16 comments of Charent

我另外有一个项目在计划做针对agent的sft,还没有更新代码,目前小模型做rag我看效果还行。 小于1B的模型不具有涌现现象,所以做多任务效果不行。小模型目前的场景主要在帮助大模型做投机采样(我目前还没见过小于1B的assist model 2333),或者微调后放在游戏中做生成npc对话。

> @charent 另外项目会开源吗, 效果如何 还在折腾训练数据阶段😂,模型得换成decoder-only的,encoder-decoder容易讲胡话,总感觉哪里没做对,短期内应该没啥效果。效果好会开源,效果差就算了。

你可以只取多轮对话数据集中,只有一轮对话的,有不少。

你把数据集大小调成几十条,看能不能跑完一个epoch,我这边不能复现你这个问题。搜到的原因说可能是cuda oom、通信异常之类的。 或者你设置一下检查点,最后一步不能保存,用之前的检查点。 或者把评估去掉

> > 我使用单卡训练了6天,我在网上看到的是因为 eval的时候 是在单卡上进行的,结果超过了30min,代码停止了。可以将等待时间设置为无限长 > > 麻烦问下双卡训练有没有解决办法,等待时间在哪设置呢,谢谢 把调用eval评估的代码去掉

这个没有,不过你可以从本项目实现的trainer把冻结网络部分的代码复制到`sft_train.py`中加载模型完成的代码后面。 ```python layers_to_freeze = [model.shared, model.encoder] for layer in layers_to_freeze: for param in layer.parameters(): param.requires_grad = False ```

现在huggingface发布的版本中,有添加过单论对话的语料,多轮对话的语料没有添加

请参考这个项目:[Phi2-mini-Chinese](https://github.com/charent/Phi2-mini-Chinese/tree/dev),将模型替换为你自己定义的模型即可:[pre_train.py#L174](https://github.com/charent/Phi2-mini-Chinese/blob/c7276970d91f53019a474bdbaefc9e97af72bec5/train_model/pre_train.py#L174)

超过这几分聊胜于无吧,一般来说,小模型超过十几分才有参考价值

请参考章节[3.7 推理](https://github.com/charent/ChatLM-mini-Chinese?tab=readme-ov-file#37-%E6%8E%A8%E7%90%86),去huggingface或者modelscope下载tokenizer相关文件放到model_save文件夹下。