jieba icon indicating copy to clipboard operation
jieba copied to clipboard

请问怎么对日期时间类词进行准确分词

Open sugarZ opened this issue 7 years ago • 7 comments

jieba.lcut('2017年10月5日或2017-10-03或12:21和12点30分还有十二点三十分') 分出来 ['2017年', '10月', '5日', '或', '2017', '-', '10', '-', '03', '或', '12', ':', '21', '和', '12点', '30分', '还有', '十二点', '三十分'] 如何分成 ['2017年10月5日', '或', '2017-10-3', '或', '12:21', '和', '12点30分', '还有', '十二点三十分']

sugarZ avatar Dec 27 '17 16:12 sugarZ

把这些词汇加入到词典中

发自我的vivo智能手机

sugarZ [email protected]编写:

jieba.lcut('2017年10月5日或2017-10-03或12:21和12点30分还有十二点三十分') 分出来 ['2017年', '10月', '5日', '或', '2017', '-', '10', '-', '03', '或', '12', ':', '21', '和', '12点', '30分', '还有', '十二点', '三十分'] 如何分成 ['2017年10月5日', '或', '2017-10-3', '或', '12:21', '和', '12点30分', '还有', '十二点三十分'] — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or mute the thread.

ghost avatar Dec 27 '17 16:12 ghost

之前也想到了,如果固定的几个还可以,但是非常大量的日期时间格式,没法全部加到字典,这方法太笨了.

sugarZ avatar Dec 27 '17 17:12 sugarZ

@sugarZ,请问lcut可以将“2017年”分词到一起吗,貌似我这边是“2017”,“年”

JiaWenqi avatar Jan 05 '18 02:01 JiaWenqi

@JiaWenqi 好像不行,我是加的自定义词典,把最近的年份都添加了进去,还有1-12月0-24点(钟),但是如果把时间也加上就太麻烦了,如果jieba支持特定格式分词配置就好了.

sugarZ avatar Jan 05 '18 09:01 sugarZ

目前想到一个方案,将待分词文本用时间正则进行分割后分段进行分词

xiaotu9639 avatar Sep 19 '18 06:09 xiaotu9639

日期这种,我是先用正则提取(日期+索引),然后将原文中对应索引的字符替换为占位符(比如$),最后根据占位符进行字符替换。

Syhen avatar Jun 20 '19 09:06 Syhen

http://evenvi.com/index.php/archives/66/ 试试这个,用jieba实现的

guchengxi1994 avatar Dec 29 '20 07:12 guchengxi1994