sserdoubleh

Results 74 comments of sserdoubleh

200个话题,各进行一个 self-chat 每个 多轮self-chat,除开始的话题以外,模型生成了9个 utterance,计算 distinct 是根据 200 * 9个 utterance 来计算的 对于 distinct-1、distinct-2,分母分别是200 * 9个 utterance 包含的 unigram 和 bigram 数量

跑预训练的话你现在设置的学习率太低了,32L的可以设置2e-4,24L的可以5e-4

You can change: AMP setting in knover/core/model.py https://github.com/PaddlePaddle/Knover/blame/develop/knover/core/model.py#L165 ``` python "custom_white_list": ["gelu"], ``` It seems that old models need to disable fp16 softmax / layer_norm. Thanks for feedback!

1) 2.2的训练和其他 MLM+NSP 任务的模型训练方式是一样的,都是适用随机采样的负例 2) 使用的时候用2.1的模型生成,用2.2的模型对候选排序

batch size 按照 token 数计算的

> NSPModel模型参数是由1阶段初始化的,还是2.1阶段初始化的? 用阶段1训好的参数来初始化的

nsp_init_params对应NSP Model,init_params对应PLATO

https://github.com/PaddlePaddle/Knover/blob/plato-2/plato-2/scripts/24L_plato_interact.sh 参考这个吧,不知道你用plato-2分支的时候用的是哪一个运行脚本 conf文件只是一个辅助的方法,具体的调用可以查看对应的运行shell脚本 如果你使用到的是scripts/local/infer.sh(会进一步调用scripts/distributed/infer.sh),要不你把nsp_inference_model_path放到infer_args里面试试?如:infer_args="XXXX --nsp_inference_model_path output_nsp/step_220000" 因为,nsp_inference_model_path没有在https://github.com/PaddlePaddle/Knover/blob/plato-2/scripts/distributed/infer.sh 预先定义使用到,需要放到用于指定额外arguments的infer_args里 infer.py只会定义一个主模型,用于完成给定task的inference,一些与task相关的辅助模型(如对话生成任务的后排序模型)是定义在Task里面,可以看https://github.com/PaddlePaddle/Knover/blob/plato-2/tasks/dialog_generation.py

> > https://github.com/PaddlePaddle/Knover/blob/plato-2/plato-2/scripts/24L_plato_interact.sh > > 参考这个吧,不知道你用plato-2分支的时候用的是哪一个运行脚本 > > conf文件只是一个辅助的方法,具体的调用可以查看对应的运行shell脚本 > > 如果你使用到的是scripts/local/infer.sh(会进一步调用scripts/distributed/infer.sh),要不你把nsp_inference_model_path放到infer_args里面试试?如:infer_args="XXXX --nsp_inference_model_path output_nsp/step_220000" > > 因为,nsp_inference_model_path没有在https://github.com/PaddlePaddle/Knover/blob/plato-2/scripts/distributed/infer.sh 预先定义使用到,需要放到用于指定额外arguments的infer_args里 > > infer.py只会定义一个主模型,用于完成给定task的inference,一些与task相关的辅助模型(如对话生成任务的后排序模型)是定义在Task里面,可以看https://github.com/PaddlePaddle/Knover/blob/plato-2/tasks/dialog_generation.py > > 我使用了类似 plato-2/scrips/24L_plato_infer.sh的脚本,但是我发现nsp_predictor的输出是NAN。 运行脚本能发来看下吗?训练的时候,Validation的结果应该是正常的吧?

那可能需要检查下训练过程了 @lonelydancer