JamSpell
JamSpell copied to clipboard
New russian language model
Здравствуйте, я тут обучил JamSpell на наборе данных из русских субтитров (примерно 5 млн предложений) к 347 различным сериалам, взятыми из корпуса Taiga. После очистки данных получился текстовый файл с субтитрами размером 310Mb.
Результаты оценки модели:
Скачать можно из моего Google Drive: jamspell_ru_model_subtitles.bin.zip (58Mb)
PS. Буду только рад, если добавите эту модель к списку готовых моделей в README проекта :)
@Desklop Владислав, здравствуйте! Большое спасибо за модель! Не могли бы выложить заодно и корпус для обучения?
@olegtarasov да, в моём репозитории вы можете найти всю необходимую информацию: Russian subtitles dataset
@Desklop Круто, спасибо! Поисследуем :)
Посмотрите так же на Pro
версию, она включает в себя большую модель (~2 Гб. данных) обученную на википедии, новостях, субтитрах (не только из taiga, но и из opensubtitles.org), литературе. Исходные данные так же доступны.
JamSpellPro доступна на jamspell.com