opencorpora
opencorpora copied to clipboard
Орфоварианты
Вроде бы списки совпадают. Ты сам это сделаешь?
Не должны совпадать, вроде. Кто сделает - не знаю, кажется, можно даже вручную.
Добавила возможность обработки файлов из приложения скриптом. Есть вопросы:
-
в файле nonnames есть слово "РУКОПЛЛЕСКАНИЕ", имеющие уже помету "удалено"
-
приложила список имен, которые встречаются в базе несколько раз names_duplicates.txt
-
сейчас не обрабатываю дублирующиеся строки в файле (таких много в файле names).
- значит, его можно игнорировать 2-3) значит, связи нужно делать со всеми
2-3) добавила возможность указать при выполнении скрипта process_links параметр several_lexemes, который ищет несколько лексем по заданным лемме+граммемам, а не только одну. Наверное, лучше считать, что по умолчанию такой ситуации не может быть? Или выкинуть параметр и считать, что дубликаты — это нормально?
Нет, дубликаты - это ненормально. А можно включить туда режим типа "dry run", в котором ничего реально с базой не происходит, а только пишется в stdout (или stderr), что должно произойти?
да, добавила опцию -d — тогда только пишутся инсерты, а реально вставок не делается