PaddleNLP
PaddleNLP copied to clipboard
请问Plato-mini模型,遇到对话历史的长度大于512的情况建议怎么处理
请提出你的问题
使用Plato-mini模型,发现官方预训练模型的max_seq_len是512 如果对话历史大于512,将代码中的max_seq_len和模型初始化时侯的max_position_embeddings参数调整后再训练似乎是一个办法 不过这样一来样本占用的显存就会增大,请问你们对于这样的情况建议怎么处理,有没有那种将长对话截断,对每一小段生成一个hidden states,然后再接起来做最终处理的操作?
可以将历史比较久远的对话内容提取关键词来作为部分对话历史,这样生成 hidden_state 这步还是交给模型本身来完成。 或者其实在多轮对话里面,太久远的对话内容可能也不是继续生成的主要参考,直接截断不作为历史信息来输入也是一种方式。
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。
This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。