FlagEmbedding

FlagEmbedding copied to clipboard

Reame
Issues

C-MTEB/CmedqaRetrieval 数据集生成方法及可能的标签问题

Open james016 opened this issue 2 years ago • 2 comments

您好，我正在分析 C-MTEB/CmedqaRetrieval 数据集中的一些异常情况，并注意到某些 ground truth 结果似乎与我的常识不符。为了更好地理解这些异常，我想了解数据集的生成过程，特别是以下几点：

数据集构建流程：数据集是如何从原始数据中提取出 4000 个查询和相应的语料库（大约 7500+ 条目）的？
相似问题的处理：在处理 4000 个查询时，是否有对相似问题进行清洗或标注？
负样本的选取：负样本（与查询无关的样本）是如何选取的？是否主要来自网络搜索内容？

我希望通过了解这些信息，能更准确地判断数据集中是否存在标签错误或其他问题。

细节

我验证文献引用的链条 https://arxiv.org/pdf/2309.07597.pdf -> https://arxiv.org/pdf/2203.10232.pdf -> https://github.com/zhangsheng93/cMedQA2 -> https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603 找到原始的文章好像是 https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603

里面，对数据的描述如下

其测试数据集好像是每个 query 有大概 100 个 candidate 的 answers，其中有几个是 gt。预期这 100 个 candidate 中的负样本应该是被标注过，确定与 query 无关的。但是，这 4000 个 query 之间，好像没看到说明他们之间是无关的

我猜测数据生成过程，可能是下面这样的：

从原始数据获取到 4000 query + 对应的 corpus （共约 7500+）
清洗 4000 query 中的相似提问（可能需要标注）
填补无关负样本，好像是很多网络搜索的内容

我不太确定是不是这样做的，尤其是中间是否做过 2 的清洗

Dec 26 '23 09:12 james016

您好，我们采取的是来自dulreader的数据：https://aclanthology.org/2022.emnlp-main.357.pdf corpurs是query对应的passage，以及来自dulreader_retrieval的passages。

这可能并不是最佳的形式，欢迎对测试数据的清洗和更新。

Dec 26 '23 10:12 staoxiao

好的👌，感谢回复

Dec 26 '23 10:12 james016

形式，欢迎对测试数据的清洗和更

你好，想请问一下，清洗相似提问？这个相似提问怎么衡量？比如我的数据集中： "query": "流动比率的计算方法是什么？", "query": "速动比率的计算方法是什么？", "query": "企业的“底子”是什么？", "query": "企业的“面子”是什么？",

以上这些数据其实是不同的问题，但是他们从字面上看区别好像很小，这种算是相似提问吗？

May 22 '24 05:05 sevenandseven