underthesea icon indicating copy to clipboard operation
underthesea copied to clipboard

Lỗi khi word_tokenize

Open lengockyquang opened this issue 5 years ago • 9 comments

Hi underthesea, Mình có dùng underthesea phiên bản 1.1.15 thì gặp trường hợp khi sử dụng word_tokenize với cụm danh từ "Cộng hòa Ả Rập" thì có vẻ như word_tokenize đã không hoạt động đúng khi gom "hòa Ả" thành 1 cụm. Mong nhóm có thể kiểm tra lại. Hình minh họa bên dưới: image

lengockyquang avatar Apr 24 '19 20:04 lengockyquang

@lengockyquang cảm ơn bạn đã thông báo lỗi. Nhóm mình sẽ tìm hướng khắc phục lỗi này trong thời gian sắp tới

thanks

rain1024 avatar Apr 26 '19 11:04 rain1024

Mình cũng thấy 1 vấn đề khi word_tonkenize là kí hiệu % bị tách ra khỏi số text = "Tăng trưởng tín dụng trong nửa đầu năm chỉ ở mức khiêm tốn 2,4%, nhưng nếu so sánh với kết quả âm 0,6% trong quý I thì thực tế ngân hàng tăng trưởng tín dụng gần 3% trong ba tháng gần nhất." output = word_tokenize(text, format="text") print(output)

Output: Tăng_trưởng tín_dụng trong nửa đầu năm chỉ ở mức khiêm_tốn 2,4 % , nhưng nếu so_sánh với kết_quả âm 0,6 % trong quý I thì thực_tế ngân_hàng tăng_trưởng tín_dụng gần 3 % trong ba tháng gần nhất .

Mong nhóm có thể sớm kiểm tra lại ạ!

KienPM avatar Jul 31 '19 04:07 KienPM

Cái này là do mình chủ động tách thế @KienPM nhé

rain1024 avatar Jul 31 '19 07:07 rain1024

ồ ra là vậy ạ, vì khi mình POS tag nó ra kết quả thế này [('Tăng trưởng', 'V'), ('tín dụng', 'N'), ('trong', 'E'), ('nửa', 'N'), ('đầu', 'N'), ('năm', 'N'), ('chỉ', 'R'), ('ở', 'E'), ('mức', 'N'), ('khiêm tốn', 'A'), ('2,4', 'N'), ('%', 'V'), (',', 'CH'), ('nhưng', 'C'), ('nếu', 'C'), ('so sánh', 'V'), ('với', 'E'), ('kết quả', 'N'), ('âm', 'A'), ('0,6', 'V'), ('%', 'N'), ('trong', 'E'), ('quý', 'N'), ('I', 'M'), ('thì', 'C'), ('thực tế', 'N'), ('ngân hàng', 'N'), ('tăng trưởng', 'V'), ('tín dụng', 'N'), ('gần', 'A'), ('3', 'M'), ('%', 'N'), ('trong', 'E'), ('ba', 'M'), ('tháng', 'N'), ('gần', 'A'), ('nhất', 'R'), ('.', 'CH')]

'2,4' ra N, '%' ra V thì có phải là vấn đề ko nhỉ

KienPM avatar Jul 31 '19 07:07 KienPM

Đó đúng là vấn đề @KienPM ạ

rain1024 avatar Jul 31 '19 07:07 rain1024

Mong team sớm ra bản cập nhật :D

KienPM avatar Jul 31 '19 07:07 KienPM

@rain1024 em cũng gặp 1 trường hợp bị sai như sau ạ: input: Tình huống xảy ra khá nhanh nên nạn nhân không kịp trở tay. Toàn diễn biến sự việc đã được camera hành trình ghi lại.

ouput: ['Tình huống', 'xảy', 'ra', 'khá', 'nhanh', 'nên', 'nạn nhân', 'không', 'kịp', 'trở tay', '. Toàn', 'diễn biến', 'sự việc', 'đã', 'được', 'camera', 'hành trình', 'ghi', 'lại', '.', '"']

'. Toàn' được tách thành 1 từ ạ

michaelLampard avatar Jul 17 '20 07:07 michaelLampard

@michaelLampard em thử sử dụng tách câu sent_tokenize trước khi tách từ word_tokenize xem

rain1024 avatar Jul 18 '20 03:07 rain1024

@michaelLampard em thử sử dụng tách câu sent_tokenize trước khi tách từ word_tokenize xem

Như vậy thì không bị lỗi ạ. Em cảm ơn anh!

michaelLampard avatar Jul 18 '20 03:07 michaelLampard