PaddleNLP icon indicating copy to clipboard operation
PaddleNLP copied to clipboard

请问Plato-mini模型,遇到对话历史的长度大于512的情况建议怎么处理

Open lesliexufdu opened this issue 3 years ago • 1 comments

请提出你的问题

使用Plato-mini模型,发现官方预训练模型的max_seq_len是512 如果对话历史大于512,将代码中的max_seq_len和模型初始化时侯的max_position_embeddings参数调整后再训练似乎是一个办法 不过这样一来样本占用的显存就会增大,请问你们对于这样的情况建议怎么处理,有没有那种将长对话截断,对每一小段生成一个hidden states,然后再接起来做最终处理的操作?

lesliexufdu avatar Oct 10 '22 04:10 lesliexufdu

可以将历史比较久远的对话内容提取关键词来作为部分对话历史,这样生成 hidden_state 这步还是交给模型本身来完成。 或者其实在多轮对话里面,太久远的对话内容可能也不是继续生成的主要参考,直接截断不作为历史信息来输入也是一种方式。

FrostML avatar Oct 12 '22 02:10 FrostML

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] avatar Dec 11 '22 08:12 github-actions[bot]

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。

github-actions[bot] avatar Dec 26 '22 00:12 github-actions[bot]