FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

C-MTEB/CmedqaRetrieval 数据集生成方法及可能的标签问题

Open james016 opened this issue 2 years ago • 2 comments

您好,我正在分析 C-MTEB/CmedqaRetrieval 数据集中的一些异常情况,并注意到某些 ground truth 结果似乎与我的常识不符。为了更好地理解这些异常,我想了解数据集的生成过程,特别是以下几点:

  1. 数据集构建流程:数据集是如何从原始数据中提取出 4000 个查询和相应的语料库(大约 7500+ 条目)的?
  2. 相似问题的处理:在处理 4000 个查询时,是否有对相似问题进行清洗或标注?
  3. 负样本的选取:负样本(与查询无关的样本)是如何选取的?是否主要来自网络搜索内容?

我希望通过了解这些信息,能更准确地判断数据集中是否存在标签错误或其他问题。

细节

我验证文献引用的链条 https://arxiv.org/pdf/2309.07597.pdf -> https://arxiv.org/pdf/2203.10232.pdf -> https://github.com/zhangsheng93/cMedQA2 -> https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603 找到原始的文章好像是 https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603

里面,对数据的描述如下

image

其测试数据集好像是每个 query 有大概 100 个 candidate 的 answers,其中有几个是 gt。预期这 100 个 candidate 中的负样本应该是被标注过,确定与 query 无关的。但是,这 4000 个 query 之间,好像没看到说明他们之间是无关的

我猜测数据生成过程,可能是下面这样的:

  1. 从原始数据获取到 4000 query + 对应的 corpus (共约 7500+)
  2. 清洗 4000 query 中的相似提问(可能需要标注)
  3. 填补无关负样本,好像是很多网络搜索的内容

我不太确定是不是这样做的,尤其是中间是否做过 2 的清洗

james016 avatar Dec 26 '23 09:12 james016

您好,我们采取的是来自dulreader的数据:https://aclanthology.org/2022.emnlp-main.357.pdf image corpurs是query对应的passage,以及来自dulreader_retrieval的passages。

这可能并不是最佳的形式,欢迎对测试数据的清洗和更新。

staoxiao avatar Dec 26 '23 10:12 staoxiao

好的👌,感谢回复

james016 avatar Dec 26 '23 10:12 james016

形式,欢迎对测试数据的清洗和更

你好,想请问一下,清洗相似提问?这个相似提问怎么衡量? 比如我的数据集中: "query": "流动比率的计算方法是什么?", "query": "速动比率的计算方法是什么?", "query": "企业的“底子”是什么?", "query": "企业的“面子”是什么?",

以上这些数据其实是不同的问题,但是他们从字面上看区别好像很小,这种算是相似提问吗?

sevenandseven avatar May 22 '24 05:05 sevenandseven