underthesea icon indicating copy to clipboard operation
underthesea copied to clipboard

Độ chính xác NER

Open mactiendinh opened this issue 6 years ago • 3 comments

Mình chạy lại Ví dụ trong readme câu 'Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump' mà kết quả ra khác so với trong readme quá Kết quả mình chạy [('Chưa', 'O'), ('tiết lộ', 'O'), ('lịch trình', 'O'), ('tới', 'O'), ('Việt Nam', 'B-LOC'), ('của', 'O'), ('Tổng thống', 'B-LOC'), ('Mỹ Donald Trump', 'I-LOC')] Không biết bên anh có nhầm lẫn gì không. Mình test trên 1 đoạn văn bản cũng bị sai nhiều

mactiendinh avatar Sep 18 '19 01:09 mactiendinh

mình test trên http://undertheseanlp.com/ cũng bị sai như thế

mactiendinh avatar Sep 18 '19 01:09 mactiendinh

@mactiendinh Cảm ơn bạn đã report lỗi. Nhóm mình sẽ cập nhật trong các phiên bản sau nhé

rain1024 avatar Sep 18 '19 02:09 rain1024

em cũng đang gặp phải tình trạng như vậy, tên quốc gia bị gộp với tên người phía sau, mong team mình sớm cập nhật ạ :D

KienPM avatar Oct 24 '19 09:10 KienPM

@mactiendinh @KienPM Hiện tại mình vừa cập nhật phiên bản underthesea v1.4.0a2 có fix issue này :D

Các bạn thử nghiệm nhé

$ pip install underthesea==1.4.0a2
$ pip install underthesea[deep]

$ python
>>> ner('Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump', deep=True)
[{'entity': 'B-LOC',
  'score': 0.99978334,
  'index': 9,
  'word': 'Việt',
  'start': 28,
  'end': 32},
 {'entity': 'I-LOC',
  'score': 0.9988136,
  'index': 10,
  'word': 'Nam',
  'start': 33,
  'end': 36},
 {'entity': 'B-LOC',
  'score': 0.99886155,
  'index': 14,
  'word': 'Mỹ',
  'start': 52,
  'end': 54},
 {'entity': 'B-PER',
  'score': 0.9989538,
  'index': 15,
  'word': 'Donald',
  'start': 55,
  'end': 61},
 {'entity': 'I-PER',
  'score': 0.9994419,
  'index': 16,
  'word': 'Trump',
  'start': 62,
  'end': 67}]

rain1024 avatar Nov 11 '22 02:11 rain1024