Information-Extraction-Chinese 训练完模型，输入测试句子无法识别实体

训练完模型，输入测试句子无法识别实体

Open MavisJin opened this issue 6 years ago • 5 comments

大神，您好~ 我用IOB方法标注的医学数据训练完模型后，输入训练集中有的句子进行测试，未能识别出任何实体。输入任何医学相关的句子都无法识别出实体。想请问，模型的效果是否与训练的数据量有关？是否与分词有关？另外，您给的数据集为IOB标注方式，为何能在tags_schema为IOBES时跑通，而我的数据会报错？期待您的回答

Mar 21 '18 08:03 MavisJin

已解决，最后发现其实已正确识别出了实体，但是最后一步输出作者用的result_to_json是针对IBOES标注方式的，而我的数据是IBO，因此不能根据标签筛选出实体，改一改就可以了

Apr 13 '18 02:04 MavisJin

我也是用IBO标注的，测试时没有结果，改result_to_json函数出错，请问你是如何改的啊？

Apr 17 '18 11:04 shenman163

@MavisJin 请教一下，你是如何标注的数据，能不能知道下？

我这边标注的实体，只是记录了实体的位置，类似下面的JSON 而今天，DR钻戒的圣诞暖心礼物，就是想让忙碌的年轻人们，放慢脚步，好好陪伴一次身边的Ta，对爱的人说一声“我爱你”。

像这个，我想识别出：DR钻戒，如何改进呢？求给个方向。

Sep 18 '18 10:09 forconz

{"string": "近日,腾讯以近18亿美元入股特斯拉成第五大股东的消息引发了外界大量猜测和热议。", "entities": [{"word": "特斯拉", "start": 14, "end": 17, "type": "LOC"}]}

识别机构，应该识别腾讯和特斯拉。

@MavisJin 能不能知道一下，如何改善这个数据集。用什么工具来做标注，生成这个标注方式的语料。

Sep 18 '18 12:09 forconz

@MavisJin 您好，想问一下您怎么修改的result_to_json函数的，我把数据集更换训练后，不能识别出实体，不知道是哪一步出问题了

Dec 04 '18 08:12 bluesky632

Information-Extraction-Chinese Information-Extraction-Chinese copied to clipboard

训练完模型，输入测试句子无法识别实体

Information-Extraction-Chinese
Information-Extraction-Chinese copied to clipboard