请教几个有关豆瓣数据集的问题
@JasonForJoy 不好意思打搅了,有幸阅读了您的文章,非常棒!有几个问题想请教一下,
1:豆瓣数据集训练集标注只有一个正例和一个反例
麻烦问下这个正例和反例是怎么挑选的呢?有什么规则吗?
2:豆瓣数据集测试集test.txt中
这里正例和反例的数量加起来是10个,这是粗筛之后的结果是吗?麻烦问下有什么规则筛的吗?还有就是正例的数量有可能是NA,这是什么原因呢?
3:数据集的筛选规则如果有相关代码的话是否能发我一份,非常感谢!!!我的邮箱[email protected]
@andrew-begain 1.正例是正常连续的对话,将最后一句当作正例回复,之前的当作对话历史;负例是从整个语料库中随机采样。具体可参考https://arxiv.org/pdf/1612.01627.pdf 2. 我们没有重新进行负采样,正负样例follow了原始数据集,只不过加了id信息。NA表示没有正确回复,这是Douban测试集的特性 3. 我们仅仅是对原始的数据集进行了加id操作,没有筛选,你可以联系原作者 https://github.com/MarkWuNLP/MultiTurnResponseSelection
@andrew-begain 1.正例是正常连续的对话,将最后一句当作正例回复,之前的当作对话历史;负例是从整个语料库中随机采样。具体可参考https://arxiv.org/pdf/1612.01627.pdf 2. 我们没有重新进行负采样,正负样例follow了原始数据集,只不过加了id信息。NA表示没有正确回复,这是Douban测试集的特性 3. 我们仅仅是对原始的数据集进行了加id操作,没有筛选,你可以联系原作者 https://github.com/MarkWuNLP/MultiTurnResponseSelection
非常感谢您即时的回复,麻烦再请教一下,像豆瓣这样制作自己的数据集您有什么好的办法吗?从海量的聊天记录中自动筛选出一些代表性的对话,还有分词算法,还有就是如果用在实际的对话中需要从海量的回复中召回一些回复有哪些算法呢?谢谢
@andrew-begain 关于如何制作一个好的数据集,你可以参考现有常用的数据集的论文,例如Ubuntu (https://aclanthology.org/W15-4640.pdf), Douban(https://arxiv.org/pdf/1612.01627.pdf), E-commerce(https://aclanthology.org/C18-1317.pdf) 也可参考我们维护的一个leaderboard(https://github.com/JasonForJoy/Leaderboards-for-Multi-Turn-Response-Selection) 如何召回一些好的回复,可以用一些轻量级的IR算法,例如TF-IDF和BM25,一些计算量比较大但更准确的,例如DPR
https://github.com/JasonForJoy/Leaderboards-for-Multi-Turn-Response-Selection
非常感谢!!!这些算法怎样用到真实的对话系统中您有好的建议吗?