JamSpell icon indicating copy to clipboard operation
JamSpell copied to clipboard

New russian language model

Open dbklim opened this issue 6 years ago • 4 comments

Здравствуйте, я тут обучил JamSpell на наборе данных из русских субтитров (примерно 5 млн предложений) к 347 различным сериалам, взятыми из корпуса Taiga. После очистки данных получился текстовый файл с субтитрами размером 310Mb.

Результаты оценки модели: result_evaluate

Скачать можно из моего Google Drive: jamspell_ru_model_subtitles.bin.zip (58Mb)

PS. Буду только рад, если добавите эту модель к списку готовых моделей в README проекта :)

dbklim avatar Dec 04 '18 12:12 dbklim

@Desklop Владислав, здравствуйте! Большое спасибо за модель! Не могли бы выложить заодно и корпус для обучения?

olegtarasov avatar Feb 18 '19 11:02 olegtarasov

@olegtarasov да, в моём репозитории вы можете найти всю необходимую информацию: Russian subtitles dataset

dbklim avatar Feb 20 '19 15:02 dbklim

@Desklop Круто, спасибо! Поисследуем :)

olegtarasov avatar Feb 20 '19 17:02 olegtarasov

Посмотрите так же на Pro версию, она включает в себя большую модель (~2 Гб. данных) обученную на википедии, новостях, субтитрах (не только из taiga, но и из opensubtitles.org), литературе. Исходные данные так же доступны.

JamSpellPro доступна на jamspell.com

bakwc avatar Sep 29 '20 15:09 bakwc