C-MTEB/CmedqaRetrieval 数据集生成方法及可能的标签问题
您好,我正在分析 C-MTEB/CmedqaRetrieval 数据集中的一些异常情况,并注意到某些 ground truth 结果似乎与我的常识不符。为了更好地理解这些异常,我想了解数据集的生成过程,特别是以下几点:
- 数据集构建流程:数据集是如何从原始数据中提取出 4000 个查询和相应的语料库(大约 7500+ 条目)的?
- 相似问题的处理:在处理 4000 个查询时,是否有对相似问题进行清洗或标注?
- 负样本的选取:负样本(与查询无关的样本)是如何选取的?是否主要来自网络搜索内容?
我希望通过了解这些信息,能更准确地判断数据集中是否存在标签错误或其他问题。
细节
我验证文献引用的链条 https://arxiv.org/pdf/2309.07597.pdf -> https://arxiv.org/pdf/2203.10232.pdf -> https://github.com/zhangsheng93/cMedQA2 -> https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603 找到原始的文章好像是 https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603
里面,对数据的描述如下
其测试数据集好像是每个 query 有大概 100 个 candidate 的 answers,其中有几个是 gt。预期这 100 个 candidate 中的负样本应该是被标注过,确定与 query 无关的。但是,这 4000 个 query 之间,好像没看到说明他们之间是无关的
我猜测数据生成过程,可能是下面这样的:
- 从原始数据获取到 4000 query + 对应的 corpus (共约 7500+)
- 清洗 4000 query 中的相似提问(可能需要标注)
- 填补无关负样本,好像是很多网络搜索的内容
我不太确定是不是这样做的,尤其是中间是否做过 2 的清洗
您好,我们采取的是来自dulreader的数据:https://aclanthology.org/2022.emnlp-main.357.pdf
corpurs是query对应的passage,以及来自dulreader_retrieval的passages。
这可能并不是最佳的形式,欢迎对测试数据的清洗和更新。
好的👌,感谢回复
形式,欢迎对测试数据的清洗和更
你好,想请问一下,清洗相似提问?这个相似提问怎么衡量? 比如我的数据集中: "query": "流动比率的计算方法是什么?", "query": "速动比率的计算方法是什么?", "query": "企业的“底子”是什么?", "query": "企业的“面子”是什么?",
以上这些数据其实是不同的问题,但是他们从字面上看区别好像很小,这种算是相似提问吗?