tianchi-gaic-track3-share
tianchi-gaic-track3-share copied to clipboard
天池人工智能创新赛3-ch12hu团队周星星分享
天池人工智能创新赛赛道3-chizhu周星星分享
大家好,我是来自重庆邮电大学的ch12hu团队的chizhu。很荣幸能够拿到第一周的周星星。
方案分享
本赛题是脱敏的文本匹配题,同2019年的高校赛。 常用的思路如基于特征的feature+LGB或者基于深度语义模型的Esim和Bert等。本文采用后者。
解题思路:pretrain+fine-tuning
具体方法:
-
model
模型结构采用的是Nezha base 参考的是nezha
-
pretraing
预训练参考transformers官方的预训练脚本How to train a language model from scratch
预训练细节:预训练数据直接采用句子对形式训练,进一步地,将text1,text2的位置对调过来,数据增强。随机动态mask。加载原有的nezha base 中文模型,然后接着预训练,并不是从头开始的。 相当于保留Encoder层的信息,重新学习下embedding层的信息。对比过从头开始的,收敛更快,效果上看,提升一个百分点(89->90) 预训练参数:lr=5e-5,epoch=300 ,loss~=0.3
-
fine-tuning
直接采用这里的NeZhaForSequenceClassificationz做二分类fientune。以及加入了对抗训练,采用fgm。 训练参数:bs=128,maxlen=32,epoch=5 ,5-folds。
关键点
- 如何设计mask策略,如群里大佬提到的n-gram mask之类。
- 数据增强
- 显卡的香气,试错成本。
目前线上0.913的成绩是五折交叉的结果。cv ~=0.976
最后
预祝大家上分愉快!!!