Yunfan Shao
Results
35
comments of
Yunfan Shao
你可以发一下报错截图
我觉得可以在输入上插入一些[MASK],让模型beam search的去预测,保留一些生成分数高的预测结果。当然也可以构造一个标题补全的数据集,把标题[MASK]一部分,让模型去补全,进行fine-tuning。有训练的情况下,应该效果不差的。
用的 Wudao 数据集的开源版本,下载地址:https://resource.wudaoai.cn/home
输入和输出最大长度都是512,具体可以看我们预训练代码的dataset部分
支持的,可以参考huggingface的文档
我们试过BARTNER的方式,模型BART和CPT都试过了,效果相比直接fine-tune要差一点点。一个是我们超参也没怎么调,还有就是我们怀疑中文的tokenization导致了长序列问题,生成起来比英文要难。
参考 https://github.com/fastnlp/CPT/tree/master/finetune/generation
这个数据集(adgen)目标就是给一些关键词生成广告语。article和summarization分别对应模型的输入和输出,这是为了不同数据集都能兼容一套生成代码,你也可以命名为input,output
实验下来CPT Base的两层和BART Base的6层decoder生成效果差不多,具体可以看我们论文的实验部分。
可能是pytorch版本的问题,我用的pytorch==1.8.1, cuda11.1是能正常训练的