PySastrawi
PySastrawi copied to clipboard
Peningkatan kecepatan
Untuk melakukan stemming 87000 paragraf di i7, membutuhkan waktu ~ 24 jam. Kecepatannya sekitar 500-1000 ms per paragraf.
Sepertinya ada potensi untuk optimisasi, tapi saya sendiri belum tahu. :D
@ceefour Kalau tidak salah dulu saya pernah liat ada baris source code PySastrawi menggunaan list yang seharusnya menggunakan set. Coba nanti kita cek lagi bareng".
kenapa kecepatanya lambat ya. saya coba stemmer 200an kalimat butuh waktu 1 menitan. tetapi menggunakan yang versi php tidak sampai 2 detik
improve performa tidak harus di sisi pysastrawi, anda bisa simpan hasil kerja pysastrawi di suatu dict lalu ambil data disitu. Jika query anda sangat besar apalagi menggunakan processor high-end dengan banyak core, bisa pakai modul multiprocessing untuk memanfaatkan core yang tidak terpakai.
also cachedstemmer belum dilanjutin. itu harusnya bisa solve performance issue untuk query gede
Saya kirimkan perubahan untuk ArrayDictionarynya. Peningkatan performa sangat terasa, sekarang bisa digunakan untuk ribuan kalaimat dalam beberapa menit
Mungkin untuk replacement kata perlu menggunakan lib yang dibahas di artikel ini https://medium.freecodecamp.org/regex-was-taking-5-days-flashtext-does-it-in-15-minutes-55f04411025f