Information-Extraction-Chinese
Information-Extraction-Chinese copied to clipboard
训练完模型,输入测试句子无法识别实体
大神,您好~ 我用IOB方法标注的医学数据训练完模型后,输入训练集中有的句子进行测试,未能识别出任何实体。 输入任何医学相关的句子都无法识别出实体。 想请问,模型的效果是否与训练的数据量有关?是否与分词有关? 另外,您给的数据集为IOB标注方式,为何能在tags_schema为IOBES时跑通,而我的数据会报错? 期待您的回答
已解决,最后发现其实已正确识别出了实体,但是最后一步输出作者用的result_to_json是针对IBOES标注方式的,而我的数据是IBO,因此不能根据标签筛选出实体,改一改就可以了
我也是用IBO标注的,测试时没有结果,改result_to_json函数出错,请问你是如何改的啊?
@MavisJin 请教一下,你是如何标注的数据,能不能知道下?
我这边标注的实体,只是记录了实体的位置,类似下面的JSON 而今天,DR钻戒的圣诞暖心礼物,就是想让忙碌的年轻人们,放慢脚步,好好陪伴一次身边的Ta,对爱的人说一声“我爱你”。
像这个,我想识别出:DR钻戒,如何改进呢?求给个方向。
{"string": "近日,腾讯以近18亿美元入股特斯拉成第五大股东的消息引发了外界大量猜测和热议。", "entities": [{"word": "特斯拉", "start": 14, "end": 17, "type": "LOC"}]}
识别机构,应该识别腾讯和特斯拉。
@MavisJin 能不能知道一下,如何改善这个数据集。用什么工具来做标注,生成这个标注方式的语料。
@MavisJin 您好,想问一下您怎么修改的result_to_json函数的,我把数据集更换训练后, 不能识别出实体,不知道是哪一步出问题了