sserdoubleh

Results 74 comments of sserdoubleh

Where are you know PLATO? may be https://github.com/PaddlePaddle/Knover/tree/master/plato-2?

You also need to modify following lines for inference with numerical data format: https://github.com/PaddlePaddle/Knover/blob/5a2fbec7eda7011d6aa6302851c4da37fa3d2fc4/knover/tasks/dialog_generation.py#L107

> 更新问题:试了下32L的model可以,看来采用BST微调是定制的关键。请问 1、这种定制能力是完全依靠数据集吗? 2、上面的代码在每次对话都append persona信息,使用是否正确?还是只要第一句话加入即可? 24L 开源的模型是没有经过 BST finetune 的 1. 这种能力主要还是来自于 finetune,会生成下游数据集的格式的对话 2. 只需要保证传进去的 src 里面最前面是 persona信息,这是当时我们的开源模型训练时使用的格式;你这里处理的方式没问题,因为 interact 脚本里只维护了对话历史,没有单独维护 persona,可以按照你这种方式处理的 另外分布式 interact 脚本改的有点问题哈,大致是需要改成(不过这里还有一些边界需要处理下) ``` personas = ["your persona: i...

self chat的代码,我后面可以提供一个,大概月底有时间了吧

https://github.com/PaddlePaddle/Knover/pull/118 我这里提供了一个 self-chat 的脚本,和一个 demo 配置 `./scripts/local/job.sh ./package/dialog_en/self_chat.conf` 默认是以"hi"作为对话的开头,你可以在`infer_args`里面加一个`--in_file`来指定以什么为开头,进行self-chat 具体的可以参考 `knover/scripts/self_chat.py`,里面的逻辑也不是很复杂,可以参考着改 self_chat 的配置可以参考`./package/dialog_en/24L_infer.conf`改动解码策略

原来数据集本身有 knowledge 候选 和 topic,所以可以直接使用数据集本身自带的 如果是新场景下使用,可以参考各个数据集构造时的构造方式

我理解你是想在部署的时候使用~ 这个是可以参考如 WoW 数据集的构建,根据对话最后一轮用户、机器人的聊天内容用 TF-IDF 搜索相关 Wikipedia 文章。当然也可以使用NER 识别话题再通过其他方式关联到一些知识源