SimCSE-Chinese-Pytorch icon indicating copy to clipboard operation
SimCSE-Chinese-Pytorch copied to clipboard

SimCSE在中文上的复现,有监督+无监督

Results 13 SimCSE-Chinese-Pytorch issues
Sort by recently updated
recently updated
newest added

请问无监督训练是只需要在sts-b的train集上训练,再用测试集去做评估吗,原文中说的它的训练是用的100w的wiki训练的,一直在这里有点蒙圈

请教下,我看苏剑林的代码,loss在计算相似度前其实还有个归一化,你这里没有?是不是需要加上?应该能有一些提升的

您好,关于之前预测时不能得到标签的问题,除了取阈值,我采取的方式为,先用在snli上有监督simcse训练得到checkpoint,计算spearman系数和您表格中的效果差不多。然后在simcse上再加上一层mlp在snli上微调,类似于如下形式: ``` class SimCSE_with_mlp(nn.Module): def __init__(self, SimCSE_model): super(SimCSE_with_mlp, self).__init__() self.SimCSE = SimCSE_model self.linear = nn.Linear(2*768,3) def forward(self, input_ids1, attention_mask1, token_type_ids1, input_ids2, attention_mask2, token_type_ids2): output1 = self.SimCSE(input_ids1, attention_mask1, token_type_ids1) output2 =...

你好,我想请教下,无监督使用的验证集sts-dev,里面有相关系数。本质上还是个有标签的数据,或者说是需要标注的数据。那如果在没有标注的数据的情况下,这个eval()验证 如果去做呢。

https://github.com/vdogmcgee/SimCSE-Chinese-Pytorch/blob/e04263b1846fceef8dff60ead29d35e02947918b/simcse_unsup.py#L73 这里的实现是添加了自身两次,想请教一下论文当中的”同一个句子的不同 Dropout Mask“是怎么体现的呢?

老哥好,我想请教一下SimCSE有监督的实现,是否其实没有用到1,2,3,4,5的相似度标签?这模型能用于两个文本相似度的预测吗?

您的代码中,我没有看到,可以指导一下吗?谢谢