opencorpora Орфоварианты

trafficstars

(найдены @yourmary) Раз список, два список Надо расставить связи.

сс @svbichineva

Jun 03 '15 20:06 grandsbor

Вроде бы списки совпадают. Ты сам это сделаешь?

Jun 25 '15 09:06 svbichineva

Не должны совпадать, вроде. Кто сделает - не знаю, кажется, можно даже вручную.

Jun 25 '15 09:06 grandsbor

Добавила возможность обработки файлов из приложения скриптом. Есть вопросы:

в файле nonnames есть слово "РУКОПЛЛЕСКАНИЕ", имеющие уже помету "удалено"
приложила список имен, которые встречаются в базе несколько раз names_duplicates.txt
сейчас не обрабатываю дублирующиеся строки в файле (таких много в файле names).

Mar 25 '16 06:03 gisly

значит, его можно игнорировать 2-3) значит, связи нужно делать со всеми

Aug 03 '16 06:08 grandsbor

2-3) добавила возможность указать при выполнении скрипта process_links параметр several_lexemes, который ищет несколько лексем по заданным лемме+граммемам, а не только одну. Наверное, лучше считать, что по умолчанию такой ситуации не может быть? Или выкинуть параметр и считать, что дубликаты — это нормально?

Aug 06 '16 18:08 gisly

Нет, дубликаты - это ненормально. А можно включить туда режим типа "dry run", в котором ничего реально с базой не происходит, а только пишется в stdout (или stderr), что должно произойти?

Aug 09 '16 16:08 grandsbor

да, добавила опцию -d — тогда только пишутся инсерты, а реально вставок не делается

Aug 13 '16 14:08 gisly

opencorpora opencorpora copied to clipboard

Орфоварианты

opencorpora
opencorpora copied to clipboard