ner icon indicating copy to clipboard operation
ner copied to clipboard

Trainning để có thể nhận diện số điện thoại Việt Nam

Open ducpt2 opened this issue 5 years ago • 7 comments
trafficstars

Hi anh, em có test thử project tại link http://undertheseanlp.com/ thì hiện tại em thấy NER chưa nhận diện được số điện thoại Việt Nam. Anh có thể hướng dẫn em trainning thêm để có thể nhận diện phone ko ạ? Hiện tại em có đoạn regex phone của Việt Nam. Cảm ơn anh đã tạo 1 project tuyệt vời.

ducpt2 avatar Mar 05 '20 07:03 ducpt2

@ducpt2 Em có thể đưa ra một vài ví dụ về các trường hợp không nhận diện được số điện thoại Việt Nam không? Anh nghĩ cái này có thể xử lý bằng cách dùng luật ở bước tokenize bằng regex như em bảo

rain1024 avatar Mar 06 '20 02:03 rain1024

vâng, em ví dụ nhé ạ. Chuyển hàng cho mình tại ngõ 68 triều khúc thanh xuân hà nội.

ducpt2 avatar Mar 06 '20 09:03 ducpt2

Hi anh, em có test thử project tại link http://undertheseanlp.com/ thì hiện tại em thấy NER chưa nhận diện được số điện thoại Việt Nam.

Chuyển hàng cho mình tại ngõ 68 triều khúc thanh xuân hà nội.

Em muốn làm gì với đoạn text này? Đoạn text này có số điện thoại Việt Nam đâu nhỉ?

rain1024 avatar Mar 06 '20 10:03 rain1024

Sorry anh em rep hơi nhanh nên có chút nhầm lẫn ạ. Em sửa lại đoạn text 1 chút.

  • Chuyển hàng cho mình tại ngõ 68 triều khúc thanh xuân hà nội, số điện thoại là 0983234523. mình có thể xác định location và số phone là:
  • 68 triều khúc thanh xuân hà nội
  • 0983234523 không anh? Cảm ơn anh đã support.

ducpt2 avatar Mar 06 '20 14:03 ducpt2

Hiện tại, về việc tokenize, thì anh đang cũng có phần nhận các số rồi.

Selection_050

Anh cũng chưa nghĩ ra cách nào để tích hợp regex cho riêng số phone vào, mà ko bị conflict với phần nhận số này

Em có đề xuất gì không?

PS: Về regex tokenize của underthesea, em có thể tham khảo ở đây

https://github.com/undertheseanlp/underthesea/blob/master/underthesea/word_tokenize/regex_tokenize.py#L8

rain1024 avatar Mar 09 '20 03:03 rain1024

Em cảm ơn anh nhiều ạ, Hiện tại thì chắc em chưa đủ kiến thức để contribute được phần này, thành thật sorry anh.

ducpt2 avatar Mar 09 '20 14:03 ducpt2

tại sao mình ko dùng regex cho nhanh nhỉ?

ooker777 avatar Feb 05 '24 15:02 ooker777