Knover
Knover copied to clipboard
请问用plato-2跑中文模型,loss一般下降到多少?
您好,我用plato-2跑中文模型(目前跑的是第一阶段),我感觉我的学习率是不是设置小了,我设置的为1e-5,跑了1.8M个步长(batch_size=32),loss下降到2.66,尽管loss一直在下降,但是我觉得太慢了。我是不是应该把学习率设置大一点,5e-4或者2e-5。另外,我想咨询一下第一阶段的loss一般下降到多少左右就可以了?
非常期望得到回复~
跑预训练的话你现在设置的学习率太低了,32L的可以设置2e-4,24L的可以5e-4
您好,我用plato-2跑中文模型(目前跑的是第一阶段),我感觉我的学习率是不是设置小了,我设置的为1e-5,跑了1.8M个步长(batch_size=32),loss下降到2.66,尽管loss一直在下降,但是我觉得太慢了。我是不是应该把学习率设置大一点,5e-4或者2e-5。另外,我想咨询一下第一阶段的loss一般下降到多少左右就可以了?
非常期望得到回复~
大佬,能否指教一下如何将英文的plato-2模型适用于中文的多轮对话任务?
你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0
请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。
你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0
请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。
大规模数据预训练模型
wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"
对话比赛数据微调模型
wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"
你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0
请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。
大规模数据预训练模型
wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"
对话比赛数据微调模型
wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"
这两个模型我都用过,大佬用过嘛?我用的DuConv这个数据集在12层的luge模型上进行微调,验证集的困惑度最低也就4.42左右,模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。
你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0
请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。
大规模数据预训练模型
wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"
对话比赛数据微调模型
wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"
这两个模型我都用过,大佬用过嘛?我用的DuConv这个数据集在12层的luge模型上进行微调,验证集的困惑度最低也就4.42左右,模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。
我没有用plato的模型
你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0
请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。
大规模数据预训练模型
wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"
对话比赛数据微调模型
wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"
这两个模型我都用过,大佬用过嘛?我用的DuConv这个数据集在12层的luge模型上进行微调,验证集的困惑度最低也就4.42左右,模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。
我没有用plato的模型
大佬,能否加个微信,我找大佬指教下。