underthesea
underthesea copied to clipboard
word_tokenize tokenize với dấu câu.
Em có thử với một số câu khác thì hình như chỉ các câu có Canxi sau dấu chấm bị
>>> str = 'Quá đúng . Canxi là một trong những khoáng chất'
>>> str = underthesea.word_tokenize(text, format='text')
>>> print(str)
Quá đúng ._Canxi là một trong những khoáng_chất
@nguyenvanhieuvn Thanks em đã report. Lỗi này có thể walk through bằng cách tách câu trước.
Nhóm sẽ cải tiến ở các lần release sau
same as #536