opencorpora icon indicating copy to clipboard operation
opencorpora copied to clipboard

Где найти объяснение структуры xml дампа корпуса?

Open rodion-m opened this issue 4 years ago • 4 comments
trafficstars

Ребята, не смог найти документацию к данным XML файла с размеченными текстами. Подскажите, пожалуйста, где искать.

В первую очередь интересуют возможные значения тега v и их расшифровка (пример: NOUN, inan, masc, loct, PNCT и тд).

rodion-m avatar Oct 03 '21 22:10 rodion-m

http://opencorpora.org/dict.php?act=gram

bzaar avatar Oct 04 '21 08:10 bzaar

@grandsbor у нас же только XSD есть для дампа корпуса?

victorbocharov avatar Oct 04 '21 09:10 victorbocharov

Да, документации по экспорту как для словаря - нет.

grandsbor avatar Oct 04 '21 09:10 grandsbor

http://opencorpora.org/dict.php?act=gram

Спасибо!

@victorbocharov Да, схему я использую. Возможно тогда имеет смысл оставить этот issue для трекинга задачи по созданию документации для дампа корпуса. Точно резонно хотя бы эту ссылку добавить на страницу закачки дампа корпуса. Вот сюда, рядом со схемой или во вкладку формат.

rodion-m avatar Oct 04 '21 09:10 rodion-m