underthesea
underthesea copied to clipboard
Lỗi khi word_tokenize
Hi underthesea,
Mình có dùng underthesea phiên bản 1.1.15 thì gặp trường hợp khi sử dụng word_tokenize với cụm danh từ "Cộng hòa Ả Rập" thì có vẻ như word_tokenize đã không hoạt động đúng khi gom "hòa Ả" thành 1 cụm. Mong nhóm có thể kiểm tra lại. Hình minh họa bên dưới:
@lengockyquang cảm ơn bạn đã thông báo lỗi. Nhóm mình sẽ tìm hướng khắc phục lỗi này trong thời gian sắp tới
thanks
Mình cũng thấy 1 vấn đề khi word_tonkenize là kí hiệu % bị tách ra khỏi số
text = "Tăng trưởng tín dụng trong nửa đầu năm chỉ ở mức khiêm tốn 2,4%, nhưng nếu so sánh với kết quả âm 0,6% trong quý I thì thực tế ngân hàng tăng trưởng tín dụng gần 3% trong ba tháng gần nhất." output = word_tokenize(text, format="text") print(output)
Output: Tăng_trưởng tín_dụng trong nửa đầu năm chỉ ở mức khiêm_tốn 2,4 % , nhưng nếu so_sánh với kết_quả âm 0,6 % trong quý I thì thực_tế ngân_hàng tăng_trưởng tín_dụng gần 3 % trong ba tháng gần nhất .
Mong nhóm có thể sớm kiểm tra lại ạ!
Cái này là do mình chủ động tách thế @KienPM nhé
ồ ra là vậy ạ, vì khi mình POS tag nó ra kết quả thế này [('Tăng trưởng', 'V'), ('tín dụng', 'N'), ('trong', 'E'), ('nửa', 'N'), ('đầu', 'N'), ('năm', 'N'), ('chỉ', 'R'), ('ở', 'E'), ('mức', 'N'), ('khiêm tốn', 'A'), ('2,4', 'N'), ('%', 'V'), (',', 'CH'), ('nhưng', 'C'), ('nếu', 'C'), ('so sánh', 'V'), ('với', 'E'), ('kết quả', 'N'), ('âm', 'A'), ('0,6', 'V'), ('%', 'N'), ('trong', 'E'), ('quý', 'N'), ('I', 'M'), ('thì', 'C'), ('thực tế', 'N'), ('ngân hàng', 'N'), ('tăng trưởng', 'V'), ('tín dụng', 'N'), ('gần', 'A'), ('3', 'M'), ('%', 'N'), ('trong', 'E'), ('ba', 'M'), ('tháng', 'N'), ('gần', 'A'), ('nhất', 'R'), ('.', 'CH')]
'2,4' ra N, '%' ra V thì có phải là vấn đề ko nhỉ
Đó đúng là vấn đề @KienPM ạ
Mong team sớm ra bản cập nhật :D
@rain1024 em cũng gặp 1 trường hợp bị sai như sau ạ:
input:
Tình huống xảy ra khá nhanh nên nạn nhân không kịp trở tay. Toàn diễn biến sự việc đã được camera hành trình ghi lại.
ouput:
['Tình huống', 'xảy', 'ra', 'khá', 'nhanh', 'nên', 'nạn nhân', 'không', 'kịp', 'trở tay', '. Toàn', 'diễn biến', 'sự việc', 'đã', 'được', 'camera', 'hành trình', 'ghi', 'lại', '.', '"']
'. Toàn'
được tách thành 1 từ ạ
@michaelLampard em thử sử dụng tách câu sent_tokenize
trước khi tách từ word_tokenize
xem
@michaelLampard em thử sử dụng tách câu
sent_tokenize
trước khi tách từword_tokenize
xem
Như vậy thì không bị lỗi ạ. Em cảm ơn anh!