heygidi icon indicating copy to clipboard operation
heygidi copied to clipboard

Zemberek'ten gelen verilerdeki ek problemleri

Open yigitkonur opened this issue 7 years ago • 1 comments

Merhabalar, öncelikle bu güzel proje için teşekkürler. Proje içerisinde, başta yumuşak g ile biten kelimeler olmak üzere çok sayıda: "davas, bekl, çekil, bebeğ, veril, aydı" gibi kelimeler görüyoruz. Bunlar Hürriyet'ten gelen verileri işlerken yaşanan sorunlardan mı yoksa Zemberek'in ayırım algoritmasındaki problemden mi kaynaklanıyor? Benzer bir konuda çalıştığımız için sizden bilgi rica etmek ve problem hakkında haberdar etmek istedim. Teşekkürler!

yigitkonur avatar Mar 04 '17 16:03 yigitkonur

Merhaba, teşekkür ederim. Evet böyle bir problem var fakat aslında ne veri ne de zemberek ile direkt olarak ilgili değil. Şöyle ki zemberek verilen kelimenin stem'lerini bir liste olarak geri dönüyor. Örnek vermek gerekirse davasında kelimesi için, dava, davas, davası gibi sonuçlar oluyor ve içinden birini seçmek gerekiyor. Her bir kelime için doğru olanı aynı index'te olmadığı için tam bir çözüm bulamadım açıkcası.

alpcanaydin avatar Mar 04 '17 16:03 alpcanaydin