苏剑林(Jianlin Su) comments

Results 390 comments of


                                            苏剑林(Jianlin Su)

剑林大神你好，请问你有这个模型在百度数据集上的precison、recall、F1分数么，谢谢您。

我不是都写文章介绍了么？https://github.com/bojone/kg-2019

剑林大神你好，请问你有这个模型在百度数据集上的precison、recall、F1分数么，谢谢您。

> > 我不是都写文章介绍了么？https://github.com/bojone/kg-2019 > > @bojone 请问，博客里的模型图是通过什么工具画的？感谢感谢！ draw.io

想把loss 显示的放在 model.compile() 里面，做多loss，要怎么实现呢

这是loss的最通用写法，我没想到什么loss是它实现不了的。

期待能出个基于simcse的中文预训练模型

大家要搞清楚一个逻辑。这里（ https://kexue.fm/archives/8348 ）是显示simcse能带来一定的效果提升，但要注意，这个效果提升是用测评数据的数据集来微调过的（用了测评数据的句子，没有用标签）。也就是说，simcse虽然是无监督，但它需要领域内的无标签语料来训练才行，而且训练结果也显示了，并不是数据越多越好，也不是训练步数越多越好。用通用领域的语料训练simcse，我不是没试过，但是效果非常一般，仅仅比bert取first-last-avg pooling好点，远远不如已经开源的simbert、roformer-sim，所以对于想用现成的、效果比较好的相似度模型的读者来说，放出simcse预训练模型是毫无意义的，还不如用simbert、roformer-sim，更不如用最新的roformer-sim-ft（ https://kexue.fm/archives/8541 ）

关于 y_in 的疑问

实现同一个模型的不同方式而已，keras也是很灵活的，实现同一个功能可能有多种方式。

tnews.py好像并没用r-drop只有在sentiment用r-drop啦吧？想确认一下！

1、每个都有r-drop。我不至于乱发几个文件糊弄大家吧？ 2、`unlabeled_data = [(t, 0) for t, l in train_data[num_labeled:]]`这一步纯粹是心理安慰，即把所有的无标签数据的标签都设置为0，你直接改为`unlabeled_data = train_data[num_labeled:]`也完全等价，因为事实上就没用到标签。

tnews.py好像并没用r-drop只有在sentiment用r-drop啦吧？想确认一下！

1、感谢你的意见，但是我认为在熟悉r-drop和keras本身的情况下，阅读我所给的参考代码是轻而易举的； 2、半监督学习本来就是“少量标签数据+大量无标签数据”的场景，你要是有30%的标注数据，我估计都用不着半监督了。

内存占满被kill，怎么办？

因为没有搭好GPU环境，所以用了CPU跑。

csl.py模型再训练完保存，向量维度变成1万多维了？

1、predict([[token_ids], [segment_ids]]) 才对 2、我不知道你的encoder是什么，这是你自己的encoder定义问题。

有些词好像没分开，会影响到词性标注，句法分析之类的任务吗？要怎么处理？

人工过滤词表。