word_tokenize tokenize với dấu câu.

Open behitek opened this issue 6 years ago • 1 comments

Em có thử với một số câu khác thì hình như chỉ các câu có Canxi sau dấu chấm bị

>>> str = 'Quá đúng . Canxi là một trong những khoáng chất'
>>> str = underthesea.word_tokenize(text, format='text')
>>> print(str)
Quá đúng ._Canxi là một trong những khoáng_chất

Nov 30 '19 11:11 behitek

@nguyenvanhieuvn Thanks em đã report. Lỗi này có thể walk through bằng cách tách câu trước.

Nhóm sẽ cải tiến ở các lần release sau

Dec 02 '19 06:12 rain1024

same as #536

Jul 28 '23 03:07 rain1024