FlagAI

FlagAI copied to clipboard

Reame
Issues

训练Aquila-chat提示 grad norm nan等信息

Open Tian14267 opened this issue 2 years ago • 10 comments

System Info

FlagAI：1.7.1

Information

[ ] The official example scripts
[ ] My own modified scripts

Tasks

[ ] An officially supported task in the examples folder (such as T5/AltCLIP, ...)
[ ] My own task or dataset (give details below)

Reproduction

问题说明：采用 Belle公开的问答数据进行Aquila-chat训练，提示 grad norm nan Found NaN loss, skip backward 等信息。测试代码为，从 bmtrain_mgpu.sh 修改过来的（主要单机双卡训练，固定了GPU信息）。运行代码在附件中。 run.zip

Expected behavior

详细训练数据如下：Belle_open_source_1M.train.json (Belle数据) 详细报错信息如下： 微信截图_20230615164653

注：使用其他数据也是一样的情况

Jun 15 '23 08:06 Tian14267

我们的工程师正在复现和修复这个问题

Jun 16 '23 05:06 BAAI-OpenPlatform

我们的工程师正在复现和修复这个问题

好嘞。期待你们的修复~

Jun 16 '23 05:06 Tian14267

@BAAI-OpenPlatform 大佬们好，请问下，这个问题现在有解决吗？我看现在还是 nan 的情况~~~~

Jun 19 '23 01:06 Tian14267

我这里看似正常。

可以看下：

数据是否整理成制定格式？
可以定位下是否训飞了，可以调整lr试试

Jun 19 '23 02:06 ftgreat

还有是否可以在 Aquila7B 上做sft。也可以试试。

Jun 19 '23 02:06 ftgreat

@ftgreat 请问下你是使用那个belle数据吗？我是使用belle的公开数据的。这里是我调整的部分数据： belle_data_5w.zip

lr 参数我暂时没有改动过~

Jun 19 '23 02:06 Tian14267

Aquila7B

Aquila7B 和 Aquila-chat 7B 差距很大吗，训练方面

Jun 19 '23 02:06 Tian14267

@ftgreat 请问下你是使用那个belle数据吗？我是使用belle的公开数据的。这里是我调整的部分数据： belle_data_5w.zip

lr 参数我暂时没有改动过~

数据样例：

Jun 19 '23 02:06 Tian14267

Aquila7B

Aquila7B 和 Aquila-chat 7B 差距很大吗，训练方面

可以基于 Aquila7B 试试，使用小的学习率

Jun 20 '23 06:06 ftgreat

@ftgreat 请问下你是使用那个belle数据吗？我是使用belle的公开数据的。这里是我调整的部分数据： belle_data_5w.zip lr 参数我暂时没有改动过~

数据样例：

数据看上去格式正确。

Jun 20 '23 06:06 ftgreat

先关闭，如有问题重新打开issue，谢谢

Jun 22 '23 11:06 ftgreat