SimCSE icon indicating copy to clipboard operation
SimCSE copied to clipboard

词语位置对句子向量的影响

Open XingyuZhu-Pamela opened this issue 2 years ago • 0 comments

  你好,遇到了一个疑问,我用自己的中文数据在这个预训练中文模型上做了微调https://huggingface.co/cyclone/simcse-chinese-roberta-wwm-ext,用于生成不同句子的向量,计算其相似度来做匹配。实际应用发现,当两个句子仅有靠前位置的词语不同时,得到的向量差异较大,相似度较低。但当两个句子仅有中间/靠后位置词语不同时,得到的向量一致,相似度为1。
  不知道这种情况是本质上是什么原因导致的呢,大佬们有没有遇到这种问题,以及我该如何做一些调整呢?
   

XingyuZhu-Pamela avatar Sep 29 '22 07:09 XingyuZhu-Pamela