opencorpora icon indicating copy to clipboard operation
opencorpora copied to clipboard

Синхронизация с odict.ru

Open grandsbor opened this issue 10 years ago • 8 comments

http://odict.ru/ словарь Зализняка с ударениями и связями, пополняемый cc @svbichineva @victorbocharov

grandsbor avatar Sep 15 '14 11:09 grandsbor

Записал себе задачу сделать экспорт odict.ru в формат OpenCorpora: https://github.com/bzaar/odict/issues/15.

bzaar avatar Sep 16 '14 10:09 bzaar

Да даже не уверен, что это надо. Если у вас понятный текстовыый формат, то в общем всё равно, что парсить

grandsbor avatar Sep 16 '14 10:09 grandsbor

А было бы интересно словарь odict в pymorphy2 подключить вместо opencorpora и посмотреть, что получится, сравнить :) Да и ударения тоже могут быть полезными.

kmike avatar Sep 16 '14 11:09 kmike

Эм.. А как в Зализняке от odict найти ударение для конкретной словоформы? Хорошо было бы просто сделать отдельный словарь с ударениями. У меня такой даже был где-то, кажется, на 2М словоформ.

buriy avatar Feb 11 '17 06:02 buriy

Пока такого нет, надо добавить. Завел https://github.com/bzaar/odict/issues/31

bzaar avatar Feb 11 '17 13:02 bzaar

Кстати, что касается этого issue (#90), теперь есть файл экспорта http://odict.ru/download/odict.csv.zip, который похож на http://opencorpora.org/files/export/dict/dict.opcorpora.txt.zip в том смысле, что он тоже тестовый и тоже содержит словоформы и (косвенно) их теги. В принципе эти два файла изоморфны и преобразовать один в другой должно быть не очень сложно.

Каждой колонке odict.csv.zip можно приписать набор тегов, зависящий от части речи (колока B). Такой формат более компактный (7 МБ против 23 МБ в zip).

bzaar avatar Feb 11 '17 13:02 bzaar

С чего лучше начать задачу по синхронизации? Со скрипта поиска отсутствующих лексем (получилось, что их около 3000)?

gisly avatar Mar 12 '17 08:03 gisly

Было бы здорово увидеть статьи из обоих словарей, отсутствующие в другом словаре. При этом нужно учитывать разницу в разбиении словарного материала на статьи: скажем, если в odict нет статьи "Олеговна", это вовсе не значит, что такого отчества в словаре нет - отчества относятся к статье мужского имени. Глаголы и причастия в OpenCorpora представлены разными статьями, в odict - одной. Наверное, удобнее будет сравнивать словоформы, а не статьи. Но тут тоже есть подводные камни: потенциальные формы и разница в грамматиках двух словарей. Например, в словаре OpenCorpora все глаголы имеют форму на -емте: выгладимте, отсканируемте, забаррикадируемте. В odict таких нет. Совсем замечательно было бы увидеть слова, склонение / спряжение которых не совпадает в двух словарях. С большой вероятностью это ошибки, которые нужно исправить.

bzaar avatar Mar 12 '17 10:03 bzaar