SimCSE icon indicating copy to clipboard operation
SimCSE copied to clipboard

期待能出个基于simcse的中文预训练模型

Open lonngxiang opened this issue 3 years ago • 3 comments

lonngxiang avatar May 14 '21 07:05 lonngxiang

+1

godfatherzzx avatar Jul 21 '21 02:07 godfatherzzx

大家要搞清楚一个逻辑。

这里( https://kexue.fm/archives/8348 )是显示simcse能带来一定的效果提升,但要注意,这个效果提升是用测评数据的数据集来微调过的(用了测评数据的句子,没有用标签)。

也就是说,simcse虽然是无监督,但它需要领域内的无标签语料来训练才行,而且训练结果也显示了,并不是数据越多越好,也不是训练步数越多越好。

用通用领域的语料训练simcse,我不是没试过,但是效果非常一般,仅仅比bert取first-last-avg pooling好点,远远不如已经开源的simbert、roformer-sim,所以对于想用现成的、效果比较好的相似度模型的读者来说,放出simcse预训练模型是毫无意义的,还不如用simbert、roformer-sim,更不如用最新的roformer-sim-ft( https://kexue.fm/archives/8541 )

bojone avatar Jul 21 '21 02:07 bojone

大神,sbert经过了有监督训练之后效果明显优于simcse,中文sbert:https://github.com/renmada/sentence_bert_chinese

shiwl0329 avatar Aug 16 '21 08:08 shiwl0329