t5-pegasus-chinese
t5-pegasus-chinese copied to clipboard
预训练数据集
请问作者对t5的中文预训练是用的什么数据集?谢谢!
用的是精处理后的Pegasus伪摘要式语料,近30G,暂未开源~
用的是精处理后的Pegasus伪摘要式语料,近30G,暂未开源~ 那T5语言模型前处理mask的脚本有吗?