Yan Ling
Yan Ling
Thank you for your questions, i have added some details of processing the pre-training dataset in the README.md. I hope this could help you understand the pre-processing.
1.对于twitter_nlp工具没有抽出实体我们在预训练当中是作空处理的,因为下游任务上也有不存在实体的情况。 2.预训练的数据量大概是17000多。
I did not reproduce KM-BART and just use the parameters of KM-BART to initialize our model and then perform finetuning.
1.transformers版本过高可能会导致部分错误。 2.环境是linux ubuntu
您好,其他子任务只需要在标签形式和测试端稍作修改就可以了。对于属性词抽取子任务,将标签序列中的情感去掉即可。对于情感分类子任务,训练的时候使用完整的span-情感序列,测试的时候给定所有的真实span进行情感标签的生成即可。
相关代码已经上传
这是我在跑小样本实验的时候加入的参数,非常抱歉代码没有更新完善,我这两天会更新。
已经更新完毕
将这里的路径改为facebook/bart-base或者可以从huggingface上下载bart-base的模型文件,将路径改为下载下来的路径就可以了
您好,我们并没有对原始的数据集做其他的清洗工作,仅仅使用了NLTK进行简单的分词来将@之类的特殊符号与单词分割开与下游数据集保持一致。