knowledge-graph-learning icon indicating copy to clipboard operation
knowledge-graph-learning copied to clipboard

TACL-2021-Partially Supervised Named Entity Recognition via the Expected Entity Ratio Loss

Open BrambleXu opened this issue 2 years ago • 0 comments

Summary:

大部分非native的数据标注者在标注entity的时候会漏掉一些(missing tag),所以如何利用好这种high precision low recall的训练数据是一个课题。如何识别那些missing tag?作者的方案是将那些没有被标记的tags当做潜变量(latent variables)。具体方案是将marginal tag likelihood training(边缘似然学习)和一个新的判别标准(Expected Entity Ratio,EER)结合在一起,来控制句子中entity tags的相对比例。

Resource:

Paper information:

  • Author:
  • Dataset:
  • keywords:

Notes:

对所有的unannotated tokens全部当做latent tags。在这种观点下,一个句子就是由一系列token和一些被观测到的pairs(tag, position)组成的。

Model Graph:

Result:

在7个6种语言上的low-recall 数据上获得了不错的效果

Thoughts:

有用到中文的数据,需要确认一下是如何定义token的,既然是BILOU,那么应该是对中文先分词,然后当做token来训练。

Next Reading:

BrambleXu avatar Jan 05 '23 08:01 BrambleXu