pkuseg-python icon indicating copy to clipboard operation
pkuseg-python copied to clipboard

分词结果严重错误

Open wencan opened this issue 2 years ago • 5 comments

cython-3.0.2 pkuseg-0.0.25

pkuseg.pkuseg().cut('本书由百度官方出品,百度公司CTO王海峰博士作序,张钹院士、李未院士、百度集团副总裁吴甜联袂推荐。')

输出是: ['本书', '由', '百度', '官方', '出品', ',', '百度', '公司', 'CTO王', '海峰', '博士', '作', '序', ',', '张', '钹', '院士', '、', '李', '未', '院士', '、', '百度', '集团', '副总裁', '吴甜', '联袂', '推荐', '。']

wencan avatar Oct 15 '23 13:10 wencan

@.***,本次回复为系统自动回复!

lcyyyyyyyyyyy avatar Oct 15 '23 13:10 lcyyyyyyyyyyy

放弃吧,这库已经不维护了

lucasjinreal avatar Oct 24 '23 03:10 lucasjinreal

seg = pkuseg.pkuseg(model_name='web') # 程序会自动下载所对应的细领域模型 text = seg.cut('本书由百度官方出品,百度公司CTO王海峰博士作序,张钹院士、李未院士、百度集团副总裁吴甜联袂推荐。') # 进行分词 print(text) 输出: ['本书', '由', '百度', '官方', '出品', ',', '百度', '公司', 'CTO', '王海峰', '博士', '作序', ',', '张钹', '院士', '、', '李未', '院士', '、', '百度', '集团', '副总裁', '吴甜', '联袂', '推荐', '。']

我试了一下结果还蛮正常哎

viviananana avatar Mar 28 '24 15:03 viviananana

seg = pkuseg.pkuseg(model_name='web') # 程序会自动下载所对应的细领域模型 text = seg.cut('本书由百度官方出品,百度公司CTO王海峰博士作序,张钹院士、李未院士、百度集团副总裁吴甜联袂推荐。') # 进行分词 print(text) 输出: ['本书', '由', '百度', '官方', '出品', ',', '百度', '公司', 'CTO', '王海峰', '博士', '作序', ',', '张钹', '院士', '、', '李未', '院士', '、', '百度', '集团', '副总裁', '吴甜', '联袂', '推荐', '。']

我试了一下结果还蛮正常哎

因为你用的是web模型,用default模型结果就和楼主一样了

liusen373 avatar May 16 '24 10:05 liusen373

@.***,本次回复为系统自动回复!

lcyyyyyyyyyyy avatar May 16 '24 10:05 lcyyyyyyyyyyy