jieba
jieba copied to clipboard
add_word或者load_userdict的时候单个字很容易丢失
比如我的句子是"豆制品生产、销售", 直接使用jieba.lcut("豆制品生产、销售")结果是["豆制品", "生产", "、", "销售"] 然后jieba.add_word("豆"), 再分结果不变 然后jieba.add_word("豆", 9999999),结果是['豆', '制品', '生产', '、', '销售'], 但是我实际应用的时候有好几百个关键词, 一般都是两三个字的, 有80多个是一个字的, 为了保证我所有的关键词都被分出来,我将所有的关键词动态添加进词典如:for _ in ["薯", "绿色蔬菜", "蜂蜜", "肉制品", "菜籽", "蔬果", "蛋", "淡水鱼", "椰子", "青蛙", "猕猴桃", "野生动物", "小麦", "谷物", "土特产", "家畜", "金瓜", "花菜", "花生", "果", "粮油", "甜瓜", "核桃", "生物膜", "有机果蔬", "鸭", "小白瓜", "淀粉", "蔬菜", "牛", "果时汇", "葡萄", "梨", "豆", "魔芋", "番茄", "白菜", "牧", "酒", "果树", "米", "农作物", "油麦菜", "猪", "农特产", "水产品", "粽子", "鱼", "果类", "橙子", "肉", "粉丝", "病虫草害", "粮食", "竹荪", "家禽", "鸡", "渔", "莴笋", "高粱", "茄", "干鲜", "杂粮", "纯天然", "西兰花", "西蓝花", "兔", "生猪养殖", "五谷", "饮用水", "羊", "保鲜", "养殖", "空心菜", "畜", "菌", "病虫害", "笋", "芹菜", "食用油", "瓜", "汇源", "海洋生物", "禽", "糖", "哈密瓜", "甘蓝", "胡萝卜", "蜜蜂", "龙虾", "有机蔬菜", "海鲜", "草莓", "营养师", "绿色食品", "椒", "农产品", "茄子", "虾", "收成", "有机粮食", "莴苣", "有机", "芦笋", "水稻", "粉条", "山楂", "渔业", "茶", "动物", "水产", "香蕉"]: jieba.add_word(_, 9999999) 然后再划分, 又变成了["豆制品", "生产", "、", "销售"], 甚至上面的例子只是用一半也无法划分出"豆", 求大神解答
楼主找到解决办法了吗
同问, 原始句子: "桶自洁及洁桶程序'; jieba.lcut(): "桶自洁", "及洁桶","程序"; 自定义词典中加入了“及”字,还是分不开“及洁桶”
你用jieba._lcut_all("桶自洁及洁桶程序")或者jieba.lcut("桶自洁及洁桶程序", cut_all=True)就可以
------------------ 原始邮件 ------------------ 发件人: "fxsjy/jieba" <[email protected]>; 发送时间: 2020年9月4日(星期五) 中午11:02 收件人: "fxsjy/jieba"<[email protected]>; 抄送: "赵志凯"<[email protected]>;"Author"<[email protected]>; 主题: Re: [fxsjy/jieba] add_word或者load_userdict的时候单个字很容易丢失 (#837)
同问, 原始句子: "桶自洁及洁桶程序'; jieba.lcut(): "桶自洁", "及洁桶","程序"; 自定义词典中加入了“及”字,还是分不开“及洁桶”
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.
+1问题