heygidi
heygidi copied to clipboard
Zemberek'ten gelen verilerdeki ek problemleri
Merhabalar, öncelikle bu güzel proje için teşekkürler. Proje içerisinde, başta yumuşak g ile biten kelimeler olmak üzere çok sayıda: "davas, bekl, çekil, bebeğ, veril, aydı" gibi kelimeler görüyoruz. Bunlar Hürriyet'ten gelen verileri işlerken yaşanan sorunlardan mı yoksa Zemberek'in ayırım algoritmasındaki problemden mi kaynaklanıyor? Benzer bir konuda çalıştığımız için sizden bilgi rica etmek ve problem hakkında haberdar etmek istedim. Teşekkürler!
Merhaba, teşekkür ederim. Evet böyle bir problem var fakat aslında ne veri ne de zemberek ile direkt olarak ilgili değil. Şöyle ki zemberek verilen kelimenin stem'lerini bir liste olarak geri dönüyor. Örnek vermek gerekirse davasında kelimesi için, dava, davas, davası gibi sonuçlar oluyor ve içinden birini seçmek gerekiyor. Her bir kelime için doğru olanı aynı index'te olmadığı için tam bir çözüm bulamadım açıkcası.