ChineseGLUE
ChineseGLUE copied to clipboard
安利两个数据集~
安利下NLPCC KBQA和DBQA评测的数据集,可以考虑用我之前做AAAI19的清洗预处理后的版本,是matching 任务,大概10K量级的问题,对应到matching pair大概100K量级。
我预处理后的数据见:
https://github.com/Erutan-pku/LCN-for-Chinese-QA/blob/master/data_prepare.sh
原始数据集的版权问题应该去问MSRA的段楠,不过既然已经release做公开评测了,应该问题不大。
非常感谢。
我们有研究相关方面的同学会,我们去研究一下,看看可能性。
想问下 在自动文本摘要方面的任务会提上日程么 我看了下目测中文高质量的数据集很少啊
自动文本摘要,能否举个例子?有什么英文数据集,让我们做生成的同学研究一下。
19年Google的T5 他们采用的是使用 CNN/Daily Mail dataset 来做text summarization 。目前此类中文的数据集很少,尤其是长文本的。
NLPCC 2017 Task3 做中文文本摘要的,数据可下载。link
NLPCC2013和NLPCC2014有emotion classification的数据集
感谢感谢!
这个IP不对吧
这个IP不对吧
服务器挂了。。。暂时还没能挂上。。。 可以去msra官方repo中获取数据~ https://github.com/msra-nlc/ChineseKBQA https://github.com/msra-nlc/ChineseDBQA