您好，我用plato-2跑中文模型（目前跑的是第一阶段），我感觉我的学习率是不是设置小了，我设置的为1e-5，跑了1.8M个步长（batch_size=32），loss下降到2.66，尽管loss一直在下降，但是我觉得太慢了。我是不是应该把学习率设置大一点，5e-4或者2e-5。另外，我想咨询一下第一阶段的loss一般下降到多少左右就可以了？

非常期望得到回复~

Mar 14 '22 03:03 cingtiye

跑预训练的话你现在设置的学习率太低了，32L的可以设置2e-4，24L的可以5e-4

Mar 17 '22 03:03 sserdoubleh

您好，我用plato-2跑中文模型（目前跑的是第一阶段），我感觉我的学习率是不是设置小了，我设置的为1e-5，跑了1.8M个步长（batch_size=32），loss下降到2.66，尽管loss一直在下降，但是我觉得太慢了。我是不是应该把学习率设置大一点，5e-4或者2e-5。另外，我想咨询一下第一阶段的loss一般下降到多少左右就可以了？

非常期望得到回复~

大佬，能否指教一下如何将英文的plato-2模型适用于中文的多轮对话任务？

Jul 11 '22 10:07 ZeyuTeng96

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

Jul 12 '22 02:07 cingtiye

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

Jul 12 '22 02:07 ZeyuTeng96

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

Jul 12 '22 02:07 cingtiye

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过，大佬用过嘛？我用的DuConv这个数据集在12层的luge模型上进行微调，验证集的困惑度最低也就4.42左右，模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

Jul 12 '22 02:07 ZeyuTeng96

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过，大佬用过嘛？我用的DuConv这个数据集在12层的luge模型上进行微调，验证集的困惑度最低也就4.42左右，模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

我没有用plato的模型

Jul 12 '22 02:07 cingtiye

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过，大佬用过嘛？我用的DuConv这个数据集在12层的luge模型上进行微调，验证集的困惑度最低也就4.42左右，模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

我没有用plato的模型

大佬，能否加个微信，我找大佬指教下。

Jul 12 '22 02:07 ZeyuTeng96

Knover
Knover copied to clipboard

请问用plato-2跑中文模型，loss一般下降到多少？

大规模数据预训练模型

对话比赛数据微调模型

大规模数据预训练模型

对话比赛数据微调模型

大规模数据预训练模型

对话比赛数据微调模型

大规模数据预训练模型

对话比赛数据微调模型

Knover Knover copied to clipboard

请问用plato-2跑中文模型，loss一般下降到多少？

大规模数据预训练模型

对话比赛数据微调模型

大规模数据预训练模型

对话比赛数据微调模型

大规模数据预训练模型

对话比赛数据微调模型

大规模数据预训练模型

对话比赛数据微调模型

Knover
Knover copied to clipboard