训练Aquila-chat提示 grad norm nan等信息
System Info
FlagAI:1.7.1
Information
- [ ] The official example scripts
- [ ] My own modified scripts
Tasks
- [ ] An officially supported task in the
examplesfolder (such as T5/AltCLIP, ...) - [ ] My own task or dataset (give details below)
Reproduction
问题说明:采用 Belle公开的问答数据进行Aquila-chat训练,提示 grad norm nan Found NaN loss, skip backward 等信息。
测试代码为,从 bmtrain_mgpu.sh 修改过来的(主要单机双卡训练,固定了GPU信息)。运行代码在附件中。
run.zip
Expected behavior
详细训练数据如下:Belle_open_source_1M.train.json (Belle数据)
详细报错信息如下:
注:使用其他数据也是一样的情况
我们的工程师正在复现和修复这个问题
我们的工程师正在复现和修复这个问题
好嘞。期待你们的修复~
@BAAI-OpenPlatform 大佬们好,请问下,这个问题现在有解决吗?我看现在还是 nan 的情况~~~~
我这里看似正常。
可以看下:
- 数据是否整理成制定格式?
- 可以定位下是否训飞了,可以调整lr试试
还有是否可以在 Aquila7B 上做sft。也可以试试。
Aquila7B
Aquila7B 和 Aquila-chat 7B 差距很大吗,训练方面
Aquila7B
Aquila7B 和 Aquila-chat 7B 差距很大吗,训练方面
可以基于 Aquila7B 试试,使用小的学习率
@ftgreat 请问下你是使用那个belle数据吗?我是使用belle的公开数据的。这里是我调整的部分数据: belle_data_5w.zip lr 参数我暂时没有改动过~
数据样例:
数据看上去格式正确。
先关闭,如有问题重新打开issue,谢谢
