windf17
windf17
如题,我最近在处理大量的地名,需要用到分词处理,把每条地址信息经过分词处理,提取出省名、市名、县名、路名、小区名、大厦名、园区名、乡村镇名、公司名、机构名等,然后和数据库内经过人工核对的信息进行匹配,匹配到的就不需要人工核对,匹配不到的再人工核对,然后把人工核对过的信息添加到数据库中,这样可以大大减轻人工核对地址信息的工作量。迫切需要专业领域或词库,请问有没有这方面的资料? 万分感谢作者团队的作品对工作有很大帮助!
我发现pkuseg处理地址信息分词的时候经常会把数字、字母和汉字分成了词组, 我希望添加规则,数字只能和号、弄、楼、室组成词组,和别的汉字不能组成词组。 请问有没有方法可以做到?非常迫切需要学会添加pkuseg分词规则的方法。 这种分词规则:例如1号、2号...9999号,都可以组词,1弄、2弄...9999弄都可以组词,如果用加字典的处理的话不太现实。
## bug 描述 在谷歌浏览器中使用WangEditor输入中文时会莫名其妙丢字,在火狐浏览器中使用完全正常! ## 系统和浏览器及版本号 系统是manjaro,浏览器是google chrome,版本 100.0.4896.60(正式版本) (64 位)。 ## wangEditor 版本 WangEditor V5 ## demo 能否复现该 bug ? 能。 我在manjaro系统下,使用Chrome浏览器版本 100.0.4896.60 (64 位正式版) 访问https://www.wangeditor.com/demo/zh-CN/,输入中文会遇到莫名其妙的丢字、光标乱跑。 但是使用Firefox浏览器版本 98.0.2 (64...
建议作者试试pkuseg分词,我也在做处理大量模糊地址的工作,发现jieba分词错误率很高且速度慢,对比下来pkuseg速度快很多,还有多进程对文件分词的国内。经测试,在win10环境4核cpu、16g内存,对25738k大小419328行的地址文件4进程进行分词耗时70秒,如果是linux环境速度更快。 另外我使用pkuseg分词的时候导入了自定义字典,字典中存放了8万8千多条地名信息,包含所有省、市、县一级的地名全称及简称,包含大部分乡、村、镇、路名信息,现分词情况只有公司名、小区名处理得不是很理想,但是对于准确识别出省市县名基本没有出过问题。 pkuseg会出现很多陌生字信息拆成单字的情况,但是由于自定义字典的关系,省市县一级基本上不会搞错,也不会发生省市县级的信息不拆分处理的情况。对于地址中出现的单字和数字很容易加条件予以过滤掉,只解析地址中的省市县名的话使用pkuseg准确率和速度会比jieba高很多、快很多。 最后附一些分词示例: 四川省成都市武侯区晋阳路17号2-1-14-1401号 深圳市南山区深南大道9028号益田假日广场B1层物管中心 广东省深圳市南山区沙河新塘村三坊25号 广东省深圳市南山区蛇口山海经花园A栋C单元18C08 江苏省宿迁市沭阳县龙庙镇龙庙村九组140号 内蒙古省呼伦贝尔市陈巴尔虎旗宝日希勒富士图片社室(号) 黑龙江省齐齐哈尔市龙沙区紫金华府公园天下7号楼1单元402 湖北省荆州市荆州区长江大学南校区工程技术学院 黑龙江省双鸭山市尖山区一马路集星社区拐坝楼1单元602室 陕西省汉中市滨江新区 桃园新城26号楼2单元 陕西省汉中市汉台区七里办事处三组(新桥东)室(号) 广东省从化神岗镇赤草村从化组铌冶炼厂 四川省 成都市 武侯区 晋阳 路 17号 2-1-14-1401 号 深圳市 南山区 深南大道 9028 号...
I found a bug about "getGFColor". https://docs.getwidget.dev/gf-app-bar/ GF Flutter custom Appbar with Segmented Tabs ```dart import 'package:getwidget/getwidget.dart'; TabController tabController; @override void initState() { super.initState(); tabController = TabController(length: 3, vsync: this);...
### Go version go version go1.22.5 windows/amd64 ### GoFrame version v2.7.0 ### Can this bug be reproduced with the latest release? Option Yes ### What did you do? // 登录成功后返回token...
### 重现链接 [email protected] dev:mp-weixin > uni -p mp-weixin 请注意运行模式下,因日志输出、sourcemap 以及未压缩源码等原因,性能和包体积,均不及发行模式。若要正式发布,请点击发行菜单或使用 cli 发布命令进行发布 正在编译中... node_modules/@vant/use/dist/index.esm.mjs (79:2): "isVNode" is not exported by "node_modules/@dcloudio/uni-mp-vue/dist/vue.runtime.esm.js", imported by "node_modules/@vant/use/dist/index.esm.mjs". file: E:/works/StampExhibition/stamp_uniapp/node_modules/@vant/use/dist/index.esm.mjs:79:2 77: // src/useRelation/useChildren.ts 78:...
### NutUI React 包名 @nutui/nutui-react-taro ### NutUI React 版本号 4.9.3 ### 平台 h5 ### 重现链接 None ### 重现步骤 Warning: NutDialog: Support for defaultProps will be removed from function components in...
package entrance import ( "fmt" "robot-back/internal/consts" "robot-back/internal/dao" "robot-back/internal/model" "robot-back/internal/model/entity" "robot-back/internal/service" "robot-back/utility" "github.com/goflyfox/gtoken/gtoken" "github.com/gogf/gf/v2/frame/g" "github.com/gogf/gf/v2/net/ghttp" "github.com/gogf/gf/v2/util/gconv" ) // 登录前置 func LoginBefore(r *ghttp.Request) (string, interface{}) { username := r.Get("username").String() passwd := r.Get("password").String()...
gfToken.GetTokenData(r).Data it can't get Data, show ERROR: 2024-08-18 19:53:50.279 [ERRO] {cc5af3c185d0ec17ef56120c30a510df} [GToken]token decode error NL4h2VWnkTTSPtPYrPMiuSbRzgdUobEZ tMJO1zHqXGu6boS s4T p/43Ob4WMaA base64.StdEncoding.Decode failed: illegal base64 data at input byte 32 Stack: 1. github.com/goflyfox/gtoken/gtoken.(*GfToken).DecryptToken...