opencorpora icon indicating copy to clipboard operation
opencorpora copied to clipboard

Орфоварианты

Open grandsbor opened this issue 9 years ago • 7 comments

(найдены @yourmary) Раз список, два список Надо расставить связи.

сс @svbichineva

grandsbor avatar Jun 03 '15 20:06 grandsbor

Вроде бы списки совпадают. Ты сам это сделаешь?

svbichineva avatar Jun 25 '15 09:06 svbichineva

Не должны совпадать, вроде. Кто сделает - не знаю, кажется, можно даже вручную.

grandsbor avatar Jun 25 '15 09:06 grandsbor

Добавила возможность обработки файлов из приложения скриптом. Есть вопросы:

  1. в файле nonnames есть слово "РУКОПЛЛЕСКАНИЕ", имеющие уже помету "удалено"

  2. приложила список имен, которые встречаются в базе несколько раз names_duplicates.txt

  3. сейчас не обрабатываю дублирующиеся строки в файле (таких много в файле names).

gisly avatar Mar 25 '16 06:03 gisly

  1. значит, его можно игнорировать 2-3) значит, связи нужно делать со всеми

grandsbor avatar Aug 03 '16 06:08 grandsbor

2-3) добавила возможность указать при выполнении скрипта process_links параметр several_lexemes, который ищет несколько лексем по заданным лемме+граммемам, а не только одну. Наверное, лучше считать, что по умолчанию такой ситуации не может быть? Или выкинуть параметр и считать, что дубликаты — это нормально?

gisly avatar Aug 06 '16 18:08 gisly

Нет, дубликаты - это ненормально. А можно включить туда режим типа "dry run", в котором ничего реально с базой не происходит, а только пишется в stdout (или stderr), что должно произойти?

grandsbor avatar Aug 09 '16 16:08 grandsbor

да, добавила опцию -d — тогда только пишутся инсерты, а реально вставок не делается

gisly avatar Aug 13 '16 14:08 gisly