pkuseg-python icon indicating copy to clipboard operation
pkuseg-python copied to clipboard

pkuseg有没有专门处理地名的领域或字典?

Open windf17 opened this issue 4 years ago • 5 comments

如题,我最近在处理大量的地名,需要用到分词处理,把每条地址信息经过分词处理,提取出省名、市名、县名、路名、小区名、大厦名、园区名、乡村镇名、公司名、机构名等,然后和数据库内经过人工核对的信息进行匹配,匹配到的就不需要人工核对,匹配不到的再人工核对,然后把人工核对过的信息添加到数据库中,这样可以大大减轻人工核对地址信息的工作量。迫切需要专业领域或词库,请问有没有这方面的资料? 万分感谢作者团队的作品对工作有很大帮助!

windf17 avatar May 27 '20 23:05 windf17

如果没有分词工具的帮助,那么地址库变得毫无意义,例如某地址写昆山市花园新村1号102室,经过人工核对后该地址确认可投递非错误地址,那么数据库里有一条昆山市花园新村1号102室可投递的记录。接下来遇到一条地址信息是昆山花园新村2号303室,若未经过分词并规范化地址,那这条记录是匹配不到数据库里的信息的。这样子的情况很多很多,存在大量的重复核对的情况。迫切需要地名处理专业领域的词库、字典。

windf17 avatar May 27 '20 23:05 windf17

词库的话,一般可以在网络中找

SeanZhanghf avatar Jun 04 '20 06:06 SeanZhanghf

我看到论文中有提到850K的训练语料里有117K的是Location,但不知道为什么,包里却没有Location相关的model。。。

nuistzhou avatar Mar 26 '21 02:03 nuistzhou

请问default.pkl怎么新增数据

feilongdeng avatar Jan 13 '22 03:01 feilongdeng

@.***,本次回复为系统自动回复!

lcyyyyyyyyyyy avatar Jan 13 '22 03:01 lcyyyyyyyyyyy