t5-pegasus-chinese icon indicating copy to clipboard operation
t5-pegasus-chinese copied to clipboard

预训练数据集

Open yoyoshikc opened this issue 2 years ago • 2 comments

请问作者对t5的中文预训练是用的什么数据集?谢谢!

yoyoshikc avatar Apr 12 '22 09:04 yoyoshikc

用的是精处理后的Pegasus伪摘要式语料,近30G,暂未开源~

SunnyGJing avatar Apr 17 '22 15:04 SunnyGJing

用的是精处理后的Pegasus伪摘要式语料,近30G,暂未开源~ 那T5语言模型前处理mask的脚本有吗?

520jefferson avatar Oct 20 '22 12:10 520jefferson