dify icon indicating copy to clipboard operation
dify copied to clipboard

数据集改怎么编写,才能让机器人命中数据集中的内容

Open toxmc opened this issue 2 years ago • 4 comments

image 想知道数据集怎么使用,我关联了数据集,但是机器人回答的内容不是我数据集中设置的内容。能否提供一个数据集简单的示例,文档中的没看懂。说明下问题描述,问题答案是什么。谢谢

toxmc avatar May 18 '23 06:05 toxmc

个人使用建议:

  1. 对数据集的内容进行合理的分段,控制段落的字数和空行格式。这个你可以在segmentation settings的custom设置处进行相应的配置
  2. 数据集各个文档的内容尽可能正交,即每个文档尽可能描述的是不同的领域,这样在进行index查询的时候,不会出现基于你的问题,匹配到的内容过多。
  3. 可以的话尽量以Q&A的形式来组织文档内容,这样你跟机器人的问题就会有较高几率直接匹配到Q。这里的Q相当于是一个锚点,便于向量检索算法的相似度匹配。 例如,我们的一个文档示例为
问题:设备初始化时,设备提示"与WI-Fi通信失败,请确认其正常工作",应如何处理
答案:1. 近距离尝试热点排除设备问题,如果热点也存在该问题则需要售后协助排查。
2. 若热点没有问题,询问用户路由器和魔镜是否距离过远或者存在穿墙,过远则尽量调整位置,没穿墙改用5G频段减少干扰,穿墙了无法移动则使用2.4G频段增强穿墙能力。
3. 若用户不方便操作,可以建议客户联系运营商协助改善网络环境

lethe3000 avatar May 18 '23 07:05 lethe3000

image 想知道数据集怎么使用,我关联了数据集,但是机器人回答的内容不是我数据集中设置的内容。能否提供一个数据集简单的示例,文档中的没看懂。说明下问题描述,问题答案是什么。谢谢

不好意思让您误解了,这块我们初期是开放出来给多数据集 Agent 用的,但是因为耗费时间比较长,体验不好目前禁用了,后期调整好了再放开。

takatost avatar May 18 '23 12:05 takatost

个人使用建议:

  1. 对数据集的内容进行合理的分段,控制段落的字数和空行格式。这个你可以在segmentation settings的custom设置处进行相应的配置
  2. 数据集各个文档的内容尽可能正交,即每个文档尽可能描述的是不同的领域,这样在进行index查询的时候,不会出现基于你的问题,匹配到的内容过多。
  3. 可以的话尽量以Q&A的形式来组织文档内容,这样你跟机器人的问题就会有较高几率直接匹配到Q。这里的Q相当于是一个锚点,便于向量检索算法的相似度匹配。 例如,我们的一个文档示例为
问题:设备初始化时,设备提示"与WI-Fi通信失败,请确认其正常工作",应如何处理
答案:1. 近距离尝试热点排除设备问题,如果热点也存在该问题则需要售后协助排查。
2. 若热点没有问题,询问用户路由器和魔镜是否距离过远或者存在穿墙,过远则尽量调整位置,没穿墙改用5G频段减少干扰,穿墙了无法移动则使用2.4G频段增强穿墙能力。
3. 若用户不方便操作,可以建议客户联系运营商协助改善网络环境

您说的没错,QA 数据集、元数据都是我们未来要补全的功能,您的建议非常好

takatost avatar May 18 '23 12:05 takatost

回到最原始的问题,数据集一方面需要让分段尽可能的保证语意完整,每段尽可能正交,另一方面也需要针对可能出现的问题来优化数据集内容,使之权重更高,比如: 用户问公司几几年成立的? 但数据集中的内容是 "(2000 - 2023)" 这样的,在检索的时候就无法根据语意匹配到,或者匹配的权重不对,所以这边需要调整为: "成立时间:2000年 - 2023 年"

takatost avatar May 18 '23 12:05 takatost

谢谢各位大佬的回复,尝试下成功了。

toxmc avatar May 19 '23 06:05 toxmc

谢谢各位大佬的回复,尝试下成功了。

请教下如何调整成功的

linchen111 avatar Jul 06 '23 05:07 linchen111