ChineseGLUE icon indicating copy to clipboard operation
ChineseGLUE copied to clipboard

安利两个数据集~

Open Erutan-pku opened this issue 5 years ago • 10 comments

安利下NLPCC KBQA和DBQA评测的数据集,可以考虑用我之前做AAAI19的清洗预处理后的版本,是matching 任务,大概10K量级的问题,对应到matching pair大概100K量级。

我预处理后的数据见:

https://github.com/Erutan-pku/LCN-for-Chinese-QA/blob/master/data_prepare.sh

Erutan-pku avatar Oct 23 '19 12:10 Erutan-pku

原始数据集的版权问题应该去问MSRA的段楠,不过既然已经release做公开评测了,应该问题不大。

Erutan-pku avatar Oct 23 '19 12:10 Erutan-pku

非常感谢。

我们有研究相关方面的同学会,我们去研究一下,看看可能性。

brightmart avatar Oct 23 '19 14:10 brightmart

想问下 在自动文本摘要方面的任务会提上日程么 我看了下目测中文高质量的数据集很少啊

juvien avatar Nov 06 '19 01:11 juvien

自动文本摘要,能否举个例子?有什么英文数据集,让我们做生成的同学研究一下。

brightmart avatar Nov 06 '19 01:11 brightmart

19年Google的T5 他们采用的是使用 CNN/Daily Mail dataset 来做text summarization 。目前此类中文的数据集很少,尤其是长文本的。

juvien avatar Nov 06 '19 02:11 juvien

NLPCC 2017 Task3 做中文文本摘要的,数据可下载。link

enningxie avatar Nov 06 '19 03:11 enningxie

NLPCC2013和NLPCC2014有emotion classification的数据集

MingleiLI avatar Dec 28 '19 01:12 MingleiLI

感谢感谢!

brightmart avatar Dec 28 '19 07:12 brightmart

这个IP不对吧

gdragone1 avatar Nov 23 '20 05:11 gdragone1

这个IP不对吧

服务器挂了。。。暂时还没能挂上。。。 可以去msra官方repo中获取数据~ https://github.com/msra-nlc/ChineseKBQA https://github.com/msra-nlc/ChineseDBQA

Erutan-pku avatar Nov 26 '20 15:11 Erutan-pku