underthesea icon indicating copy to clipboard operation
underthesea copied to clipboard

Keyword extraction for Vietnamese

Open pdhlong opened this issue 2 years ago • 3 comments

Do you plan on creating keyword extraction for Vietnamese, I have tried RAKE, YAKE, KeyBert, TextRank, ... but the results are not promising.

pdhlong avatar Nov 17 '22 10:11 pdhlong

Do you plan on creating keyword extraction for Vietnamese?

No. But I think you can give Flashtext a try.

I have tried RAKE, YAKE, KeyBert, TextRank, ... but the results are not promising.

What is your use case? Please give me some example and your expectation

rain1024 avatar Nov 17 '22 10:11 rain1024

The aim is to extract/define the keywords - the most important/influential words of the input document. For example:

"Bóng đá là môn thể thao đồng đội được chơi giữa hai đội với nhau, mỗi đội có 11 cầu thủ trên sân. Trò chơi này dùng một quả bóng và thường được chơi trên sân cỏ hình chữ nhật với hai khung thành ở hai đầu sân. Mục tiêu của trò chơi là ghi điểm bằng cách đưa bóng vào khung thành của đội đối địch. Ngoại trừ thủ môn, các cầu thủ khác đều không được cố ý dùng tay hoặc cánh tay để chơi bóng. Đội chiến thắng là đội ghi được nhiều bàn thắng hơn khi kết thúc trận đấu."

The outputs could be:

"bóng", "đội", "cầu thủ", "khung thành"

pdhlong avatar Nov 17 '22 11:11 pdhlong

Interesting topic. I will invest it later to see how can we do :D

rain1024 avatar Nov 20 '22 07:11 rain1024