PySastrawi icon indicating copy to clipboard operation
PySastrawi copied to clipboard

Peningkatan kecepatan

Open ceefour opened this issue 8 years ago • 5 comments

Untuk melakukan stemming 87000 paragraf di i7, membutuhkan waktu ~ 24 jam. Kecepatannya sekitar 500-1000 ms per paragraf.

Sepertinya ada potensi untuk optimisasi, tapi saya sendiri belum tahu. :D

ceefour avatar Sep 22 '17 18:09 ceefour

@ceefour Kalau tidak salah dulu saya pernah liat ada baris source code PySastrawi menggunaan list yang seharusnya menggunakan set. Coba nanti kita cek lagi bareng".

prasastoadi avatar Oct 19 '17 12:10 prasastoadi

kenapa kecepatanya lambat ya. saya coba stemmer 200an kalimat butuh waktu 1 menitan. tetapi menggunakan yang versi php tidak sampai 2 detik

rangga-rizky avatar Dec 11 '17 01:12 rangga-rizky

improve performa tidak harus di sisi pysastrawi, anda bisa simpan hasil kerja pysastrawi di suatu dict lalu ambil data disitu. Jika query anda sangat besar apalagi menggunakan processor high-end dengan banyak core, bisa pakai modul multiprocessing untuk memanfaatkan core yang tidak terpakai.

also cachedstemmer belum dilanjutin. itu harusnya bisa solve performance issue untuk query gede

fdedraco avatar Jan 28 '18 01:01 fdedraco

Saya kirimkan perubahan untuk ArrayDictionarynya. Peningkatan performa sangat terasa, sekarang bisa digunakan untuk ribuan kalaimat dalam beberapa menit

sanspa avatar Sep 22 '18 02:09 sanspa

Mungkin untuk replacement kata perlu menggunakan lib yang dibahas di artikel ini https://medium.freecodecamp.org/regex-was-taking-5-days-flashtext-does-it-in-15-minutes-55f04411025f

wisnukurniawan avatar Oct 20 '18 05:10 wisnukurniawan