sserdoubleh comments

Results 74 comments of


                                            sserdoubleh

关于distinct-1/2的计算，用了多少句子/conversations？

200个话题，各进行一个 self-chat 每个多轮self-chat，除开始的话题以外，模型生成了9个 utterance，计算 distinct 是根据 200 * 9个 utterance 来计算的对于 distinct-1、distinct-2，分母分别是200 * 9个 utterance 包含的 unigram 和 bigram 数量

请问用plato-2跑中文模型，loss一般下降到多少？

跑预训练的话你现在设置的学习率太低了，32L的可以设置2e-4，24L的可以5e-4

You can change: AMP setting in knover/core/model.py https://github.com/PaddlePaddle/Knover/blame/develop/knover/core/model.py#L165 ``` python "custom_white_list": ["gelu"], ``` It seems that old models need to disable fp16 softmax / layer_norm. Thanks for feedback!

有关NSPModel训练

1) 2.2的训练和其他 MLM+NSP 任务的模型训练方式是一样的，都是适用随机采样的负例 2) 使用的时候用2.1的模型生成，用2.2的模型对候选排序

有关NSPModel训练

batch size 按照 token 数计算的

有关NSPModel训练

> NSPModel模型参数是由1阶段初始化的，还是2.1阶段初始化的？用阶段1训好的参数来初始化的

有关NSPModel训练

nsp_init_params对应NSP Model，init_params对应PLATO

有关NSPModel训练

https://github.com/PaddlePaddle/Knover/blob/plato-2/plato-2/scripts/24L_plato_interact.sh 参考这个吧，不知道你用plato-2分支的时候用的是哪一个运行脚本 conf文件只是一个辅助的方法，具体的调用可以查看对应的运行shell脚本如果你使用到的是scripts/local/infer.sh(会进一步调用scripts/distributed/infer.sh)，要不你把nsp_inference_model_path放到infer_args里面试试？如：infer_args="XXXX --nsp_inference_model_path output_nsp/step_220000" 因为，nsp_inference_model_path没有在https://github.com/PaddlePaddle/Knover/blob/plato-2/scripts/distributed/infer.sh 预先定义使用到，需要放到用于指定额外arguments的infer_args里 infer.py只会定义一个主模型，用于完成给定task的inference，一些与task相关的辅助模型（如对话生成任务的后排序模型）是定义在Task里面，可以看https://github.com/PaddlePaddle/Knover/blob/plato-2/tasks/dialog_generation.py

有关NSPModel训练

> > https://github.com/PaddlePaddle/Knover/blob/plato-2/plato-2/scripts/24L_plato_interact.sh > > 参考这个吧，不知道你用plato-2分支的时候用的是哪一个运行脚本 > > conf文件只是一个辅助的方法，具体的调用可以查看对应的运行shell脚本 > > 如果你使用到的是scripts/local/infer.sh(会进一步调用scripts/distributed/infer.sh)，要不你把nsp_inference_model_path放到infer_args里面试试？如：infer_args="XXXX --nsp_inference_model_path output_nsp/step_220000" > > 因为，nsp_inference_model_path没有在https://github.com/PaddlePaddle/Knover/blob/plato-2/scripts/distributed/infer.sh 预先定义使用到，需要放到用于指定额外arguments的infer_args里 > > infer.py只会定义一个主模型，用于完成给定task的inference，一些与task相关的辅助模型（如对话生成任务的后排序模型）是定义在Task里面，可以看https://github.com/PaddlePaddle/Knover/blob/plato-2/tasks/dialog_generation.py > > 我使用了类似 plato-2/scrips/24L_plato_infer.sh的脚本，但是我发现nsp_predictor的输出是NAN。运行脚本能发来看下吗？训练的时候，Validation的结果应该是正常的吧？

有关NSPModel训练

那可能需要检查下训练过程了 @lonelydancer