bert_seq2seq icon indicating copy to clipboard operation
bert_seq2seq copied to clipboard

文本摘要的博客和数据集

Open brealisty opened this issue 5 years ago • 7 comments

大神,看了一下你的博客,并没有看到你有关文本摘要的文章。另外,我在网上找了一下,只找到两个数据集:LCSTS、教育培训行业抽象式自动摘要中文语料库。有一个NLPCC的数据链接应该是失效了。请问还有其他什么中文的数据集吗?

brealisty avatar Oct 23 '20 14:10 brealisty

中文文本分类数据集THUCNews 可以做摘要,每个txt文件第一行就是摘要的内容。

920232796 avatar Oct 23 '20 14:10 920232796

你等会再训练哈,我代码有点问题,马上改好了,这就提交。

920232796 avatar Oct 24 '20 07:10 920232796

模型加载的有点问题,预训练参数没加载上,所以可能你现在训练的效果不是很好 重复率很高。

920232796 avatar Oct 24 '20 07:10 920232796

好了好了,麻烦你看下~多谢支持呀

920232796 avatar Oct 24 '20 07:10 920232796

http://www.blog.zhxing.online/#/readBlog/372 最新的文章,文本摘要的。

920232796 avatar Oct 24 '20 10:10 920232796

http://www.blog.zhxing.online/#/readBlog/372 最新的文章,文本摘要的。

强👍!!。max_len=256,但是数据集基本都是很长的,这样直接截断,应该对文本输出的内容影响很大吧?

brealisty avatar Oct 26 '20 08:10 brealisty

目前感觉生成的还不错,因为一段内容的话,只用前半部分就差不多能提取摘要了,如果设置太长的话,可能运行速度太慢了,而且长文本可能效果也提高不了多少。

920232796 avatar Oct 26 '20 08:10 920232796