underthesea Độ chính xác NER

Mình chạy lại Ví dụ trong readme câu 'Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump' mà kết quả ra khác so với trong readme quá Kết quả mình chạy [('Chưa', 'O'), ('tiết lộ', 'O'), ('lịch trình', 'O'), ('tới', 'O'), ('Việt Nam', 'B-LOC'), ('của', 'O'), ('Tổng thống', 'B-LOC'), ('Mỹ Donald Trump', 'I-LOC')] Không biết bên anh có nhầm lẫn gì không. Mình test trên 1 đoạn văn bản cũng bị sai nhiều

Sep 18 '19 01:09 mactiendinh

mình test trên http://undertheseanlp.com/ cũng bị sai như thế

Sep 18 '19 01:09 mactiendinh

@mactiendinh Cảm ơn bạn đã report lỗi. Nhóm mình sẽ cập nhật trong các phiên bản sau nhé

Sep 18 '19 02:09 rain1024

em cũng đang gặp phải tình trạng như vậy, tên quốc gia bị gộp với tên người phía sau, mong team mình sớm cập nhật ạ :D

Oct 24 '19 09:10 KienPM

@mactiendinh @KienPM Hiện tại mình vừa cập nhật phiên bản underthesea v1.4.0a2 có fix issue này :D

Các bạn thử nghiệm nhé

$ pip install underthesea==1.4.0a2
$ pip install underthesea[deep]

$ python
>>> ner('Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump', deep=True)
[{'entity': 'B-LOC',
  'score': 0.99978334,
  'index': 9,
  'word': 'Việt',
  'start': 28,
  'end': 32},
 {'entity': 'I-LOC',
  'score': 0.9988136,
  'index': 10,
  'word': 'Nam',
  'start': 33,
  'end': 36},
 {'entity': 'B-LOC',
  'score': 0.99886155,
  'index': 14,
  'word': 'Mỹ',
  'start': 52,
  'end': 54},
 {'entity': 'B-PER',
  'score': 0.9989538,
  'index': 15,
  'word': 'Donald',
  'start': 55,
  'end': 61},
 {'entity': 'I-PER',
  'score': 0.9994419,
  'index': 16,
  'word': 'Trump',
  'start': 62,
  'end': 67}]

Nov 11 '22 02:11 rain1024