Yunfan Shao

Results 35 comments of Yunfan Shao

我觉得可以在输入上插入一些[MASK],让模型beam search的去预测,保留一些生成分数高的预测结果。当然也可以构造一个标题补全的数据集,把标题[MASK]一部分,让模型去补全,进行fine-tuning。有训练的情况下,应该效果不差的。

用的 Wudao 数据集的开源版本,下载地址:https://resource.wudaoai.cn/home

输入和输出最大长度都是512,具体可以看我们预训练代码的dataset部分

我们试过BARTNER的方式,模型BART和CPT都试过了,效果相比直接fine-tune要差一点点。一个是我们超参也没怎么调,还有就是我们怀疑中文的tokenization导致了长序列问题,生成起来比英文要难。

参考 https://github.com/fastnlp/CPT/tree/master/finetune/generation

这个数据集(adgen)目标就是给一些关键词生成广告语。article和summarization分别对应模型的输入和输出,这是为了不同数据集都能兼容一套生成代码,你也可以命名为input,output

实验下来CPT Base的两层和BART Base的6层decoder生成效果差不多,具体可以看我们论文的实验部分。

可能是pytorch版本的问题,我用的pytorch==1.8.1, cuda11.1是能正常训练的