Knover icon indicating copy to clipboard operation
Knover copied to clipboard

请问用plato-2跑中文模型,loss一般下降到多少?

Open cingtiye opened this issue 2 years ago • 8 comments

您好,我用plato-2跑中文模型(目前跑的是第一阶段),我感觉我的学习率是不是设置小了,我设置的为1e-5,跑了1.8M个步长(batch_size=32),loss下降到2.66,尽管loss一直在下降,但是我觉得太慢了。我是不是应该把学习率设置大一点,5e-4或者2e-5。另外,我想咨询一下第一阶段的loss一般下降到多少左右就可以了?

非常期望得到回复~

cingtiye avatar Mar 14 '22 03:03 cingtiye

跑预训练的话你现在设置的学习率太低了,32L的可以设置2e-4,24L的可以5e-4

sserdoubleh avatar Mar 17 '22 03:03 sserdoubleh

您好,我用plato-2跑中文模型(目前跑的是第一阶段),我感觉我的学习率是不是设置小了,我设置的为1e-5,跑了1.8M个步长(batch_size=32),loss下降到2.66,尽管loss一直在下降,但是我觉得太慢了。我是不是应该把学习率设置大一点,5e-4或者2e-5。另外,我想咨询一下第一阶段的loss一般下降到多少左右就可以了?

非常期望得到回复~

大佬,能否指教一下如何将英文的plato-2模型适用于中文的多轮对话任务?

ZeyuTeng96 avatar Jul 11 '22 10:07 ZeyuTeng96

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

cingtiye avatar Jul 12 '22 02:07 cingtiye

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

ZeyuTeng96 avatar Jul 12 '22 02:07 ZeyuTeng96

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

image

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

cingtiye avatar Jul 12 '22 02:07 cingtiye

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

image

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过,大佬用过嘛?我用的DuConv这个数据集在12层的luge模型上进行微调,验证集的困惑度最低也就4.42左右,模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

ZeyuTeng96 avatar Jul 12 '22 02:07 ZeyuTeng96

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

image

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过,大佬用过嘛?我用的DuConv这个数据集在12层的luge模型上进行微调,验证集的困惑度最低也就4.42左右,模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

我没有用plato的模型

cingtiye avatar Jul 12 '22 02:07 cingtiye

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

image

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过,大佬用过嘛?我用的DuConv这个数据集在12层的luge模型上进行微调,验证集的困惑度最低也就4.42左右,模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

我没有用plato的模型

大佬,能否加个微信,我找大佬指教下。

ZeyuTeng96 avatar Jul 12 '22 02:07 ZeyuTeng96