ChineseGLUE 安利两个数据集~

安利下NLPCC KBQA和DBQA评测的数据集，可以考虑用我之前做AAAI19的清洗预处理后的版本，是matching 任务，大概10K量级的问题，对应到matching pair大概100K量级。

我预处理后的数据见：

https://github.com/Erutan-pku/LCN-for-Chinese-QA/blob/master/data_prepare.sh

Oct 23 '19 12:10 Erutan-pku

原始数据集的版权问题应该去问MSRA的段楠，不过既然已经release做公开评测了，应该问题不大。

Oct 23 '19 12:10 Erutan-pku

非常感谢。

我们有研究相关方面的同学会，我们去研究一下，看看可能性。

Oct 23 '19 14:10 brightmart

想问下在自动文本摘要方面的任务会提上日程么我看了下目测中文高质量的数据集很少啊

Nov 06 '19 01:11 juvien

自动文本摘要，能否举个例子？有什么英文数据集，让我们做生成的同学研究一下。

Nov 06 '19 01:11 brightmart

19年Google的T5 他们采用的是使用 CNN/Daily Mail dataset 来做text summarization 。目前此类中文的数据集很少，尤其是长文本的。

Nov 06 '19 02:11 juvien

NLPCC 2017 Task3 做中文文本摘要的，数据可下载。link

Nov 06 '19 03:11 enningxie

NLPCC2013和NLPCC2014有emotion classification的数据集

Dec 28 '19 01:12 MingleiLI

感谢感谢！

Dec 28 '19 07:12 brightmart

这个IP不对吧

Nov 23 '20 05:11 gdragone1

这个IP不对吧

服务器挂了。。。暂时还没能挂上。。。可以去msra官方repo中获取数据~ https://github.com/msra-nlc/ChineseKBQA https://github.com/msra-nlc/ChineseDBQA

Nov 26 '20 15:11 Erutan-pku

ChineseGLUE ChineseGLUE copied to clipboard