lac
lac copied to clipboard
单个姓氏标记为PER
我在实体提取的过程中发现,分词标记会将单个的姓氏标记为PER 原始句子: “自徐姓祖先于南宋淳熙年间迁来定居,后高姓、张姓始祖相继迁入”
分词标记结果: '自': 'p', '徐': 'PER', '姓': 'n', '祖先': 'n', '于南宋淳熙': 'PER', '年间': 'n', '迁': 'v', '来': 'v', '定居': 'v', '后': 'f', '高姓': 'n', '、': 'w', '张': 'PER', '始祖': 'n', '相继': 'd', '迁入': 'v'
这里“张”,“徐”都标记为PER。这种感觉不恰当,如果是在词典中直接加“张”、“徐”这些姓氏词语,就会导致人名“张学良”,被拆分为“张”、“学良”,所以也会存在问题。 所以请问一下这种目前有没有较好的解决方式?