opencorpora
opencorpora copied to clipboard
Синхронизация с odict.ru
http://odict.ru/ словарь Зализняка с ударениями и связями, пополняемый cc @svbichineva @victorbocharov
Записал себе задачу сделать экспорт odict.ru в формат OpenCorpora: https://github.com/bzaar/odict/issues/15.
Да даже не уверен, что это надо. Если у вас понятный текстовыый формат, то в общем всё равно, что парсить
А было бы интересно словарь odict в pymorphy2 подключить вместо opencorpora и посмотреть, что получится, сравнить :) Да и ударения тоже могут быть полезными.
Эм.. А как в Зализняке от odict найти ударение для конкретной словоформы? Хорошо было бы просто сделать отдельный словарь с ударениями. У меня такой даже был где-то, кажется, на 2М словоформ.
Пока такого нет, надо добавить. Завел https://github.com/bzaar/odict/issues/31
Кстати, что касается этого issue (#90), теперь есть файл экспорта http://odict.ru/download/odict.csv.zip, который похож на http://opencorpora.org/files/export/dict/dict.opcorpora.txt.zip в том смысле, что он тоже тестовый и тоже содержит словоформы и (косвенно) их теги. В принципе эти два файла изоморфны и преобразовать один в другой должно быть не очень сложно.
Каждой колонке odict.csv.zip можно приписать набор тегов, зависящий от части речи (колока B). Такой формат более компактный (7 МБ против 23 МБ в zip).
С чего лучше начать задачу по синхронизации? Со скрипта поиска отсутствующих лексем (получилось, что их около 3000)?
Было бы здорово увидеть статьи из обоих словарей, отсутствующие в другом словаре. При этом нужно учитывать разницу в разбиении словарного материала на статьи: скажем, если в odict нет статьи "Олеговна", это вовсе не значит, что такого отчества в словаре нет - отчества относятся к статье мужского имени. Глаголы и причастия в OpenCorpora представлены разными статьями, в odict - одной. Наверное, удобнее будет сравнивать словоформы, а не статьи. Но тут тоже есть подводные камни: потенциальные формы и разница в грамматиках двух словарей. Например, в словаре OpenCorpora все глаголы имеют форму на -емте: выгладимте, отсканируемте, забаррикадируемте. В odict таких нет. Совсем замечательно было бы увидеть слова, склонение / спряжение которых не совпадает в двух словарях. С большой вероятностью это ошибки, которые нужно исправить.