Độ chính xác NER
Mình chạy lại Ví dụ trong readme câu 'Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump' mà kết quả ra khác so với trong readme quá Kết quả mình chạy [('Chưa', 'O'), ('tiết lộ', 'O'), ('lịch trình', 'O'), ('tới', 'O'), ('Việt Nam', 'B-LOC'), ('của', 'O'), ('Tổng thống', 'B-LOC'), ('Mỹ Donald Trump', 'I-LOC')] Không biết bên anh có nhầm lẫn gì không. Mình test trên 1 đoạn văn bản cũng bị sai nhiều
mình test trên http://undertheseanlp.com/ cũng bị sai như thế
@mactiendinh Cảm ơn bạn đã report lỗi. Nhóm mình sẽ cập nhật trong các phiên bản sau nhé
em cũng đang gặp phải tình trạng như vậy, tên quốc gia bị gộp với tên người phía sau, mong team mình sớm cập nhật ạ :D
@mactiendinh @KienPM Hiện tại mình vừa cập nhật phiên bản underthesea v1.4.0a2 có fix issue này :D
Các bạn thử nghiệm nhé
$ pip install underthesea==1.4.0a2
$ pip install underthesea[deep]
$ python
>>> ner('Chưa tiết lộ lịch trình tới Việt Nam của Tổng thống Mỹ Donald Trump', deep=True)
[{'entity': 'B-LOC',
'score': 0.99978334,
'index': 9,
'word': 'Việt',
'start': 28,
'end': 32},
{'entity': 'I-LOC',
'score': 0.9988136,
'index': 10,
'word': 'Nam',
'start': 33,
'end': 36},
{'entity': 'B-LOC',
'score': 0.99886155,
'index': 14,
'word': 'Mỹ',
'start': 52,
'end': 54},
{'entity': 'B-PER',
'score': 0.9989538,
'index': 15,
'word': 'Donald',
'start': 55,
'end': 61},
{'entity': 'I-PER',
'score': 0.9994419,
'index': 16,
'word': 'Trump',
'start': 62,
'end': 67}]