FlagAI icon indicating copy to clipboard operation
FlagAI copied to clipboard

训练Aquila-chat提示 grad norm nan等信息

Open Tian14267 opened this issue 2 years ago • 10 comments

System Info

FlagAI:1.7.1

Information

  • [ ] The official example scripts
  • [ ] My own modified scripts

Tasks

  • [ ] An officially supported task in the examples folder (such as T5/AltCLIP, ...)
  • [ ] My own task or dataset (give details below)

Reproduction

问题说明:采用 Belle公开的问答数据进行Aquila-chat训练,提示 grad norm nan Found NaN loss, skip backward 等信息。 测试代码为,从 bmtrain_mgpu.sh 修改过来的(主要单机双卡训练,固定了GPU信息)。运行代码在附件中。 run.zip

Expected behavior

详细训练数据如下:Belle_open_source_1M.train.json (Belle数据) 详细报错信息如下: 微信截图_20230615164653

注:使用其他数据也是一样的情况

Tian14267 avatar Jun 15 '23 08:06 Tian14267

我们的工程师正在复现和修复这个问题

BAAI-OpenPlatform avatar Jun 16 '23 05:06 BAAI-OpenPlatform

我们的工程师正在复现和修复这个问题

好嘞。期待你们的修复~

Tian14267 avatar Jun 16 '23 05:06 Tian14267

@BAAI-OpenPlatform 大佬们好,请问下,这个问题现在有解决吗?我看现在还是 nan 的情况~~~~

Tian14267 avatar Jun 19 '23 01:06 Tian14267

我这里看似正常。 image

可以看下:

  1. 数据是否整理成制定格式?
  2. 可以定位下是否训飞了,可以调整lr试试

ftgreat avatar Jun 19 '23 02:06 ftgreat

还有是否可以在 Aquila7B 上做sft。也可以试试。

ftgreat avatar Jun 19 '23 02:06 ftgreat

@ftgreat 请问下你是使用那个belle数据吗?我是使用belle的公开数据的。这里是我调整的部分数据: belle_data_5w.zip

lr 参数我暂时没有改动过~

Tian14267 avatar Jun 19 '23 02:06 Tian14267

Aquila7B

Aquila7B 和 Aquila-chat 7B 差距很大吗,训练方面

Tian14267 avatar Jun 19 '23 02:06 Tian14267

@ftgreat 请问下你是使用那个belle数据吗?我是使用belle的公开数据的。这里是我调整的部分数据: belle_data_5w.zip

lr 参数我暂时没有改动过~

数据样例:

image

Tian14267 avatar Jun 19 '23 02:06 Tian14267

Aquila7B

Aquila7B 和 Aquila-chat 7B 差距很大吗,训练方面

可以基于 Aquila7B 试试,使用小的学习率

ftgreat avatar Jun 20 '23 06:06 ftgreat

@ftgreat 请问下你是使用那个belle数据吗?我是使用belle的公开数据的。这里是我调整的部分数据: belle_data_5w.zip lr 参数我暂时没有改动过~

数据样例:

image

数据看上去格式正确。

ftgreat avatar Jun 20 '23 06:06 ftgreat

先关闭,如有问题重新打开issue,谢谢

ftgreat avatar Jun 22 '23 11:06 ftgreat