mylv1222
mylv1222
@yym6472 请问根据这篇文章的实现,如果两个数据增强策略的超参都填“none”是不是就相当于实现SimCSE那篇了?
@yym6472 明白了,谢谢。
我的意思是比如在对行(token)做cutoff的时候,这个实现只是对BertEmbedding初始化生成的tensor进行了行(token的初始化embedding)的置0操作,并没有改变该token的attention_mask, 那么在计算attention的时候,这些token还是会进行计算。而《A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation》这篇论文中cutoff的实现貌似是把attention_mask(input_mask)也置0了,这样这些token就不会在attention的softmax计算的时候被考虑到,因为transformer里attention计算的时候是先全部求attention_score,然后把mask=0对应位置score变成很小的负数所以注意力为0。