opencorpora
opencorpora copied to clipboard
второй винительный падеж
Original issue 386 created by OpenCorpora on 2013-02-09T14:48:24.000Z:
Во вложении - список слов, которым вроде как можно форму второго винительного добавить.
Методика получения: по большому набору текстов поискал слова, перед которыми стоит предлог "в", и которые при этом имеют возможный разбор NOUN,nomn,plur; из результата "глазами" в 2 прохода, в 2 разных дня (для проверки) выбрал формы, для которых подходит (на мой взгяд не-лингвиста) второй винительный (вышло окло 3.5тыс). Потом дополнил полученный список списком профессий из википедии, которые в список не вошли (это еще около 1 тыс).
Список нужно еще дорабатывать (формы с е и ё иногда дублируются, не всегда формы женского рода есть, не все слова в словаре OpenCorpora есть, в определении второго винительного мог ошибиться). Кроме того, не уверен насчет полноты списка, но идеи закончились :) Если есть идеи (попробовать другие шаблоны для поиска, например), то могу шаблоны применить и результат в csv прислать (это нетрудно), но вычитывать результаты дальше уже не буду.
Comment #2 originally posted by OpenCorpora on 2013-02-10T08:31:47.000Z:
Спасибо большое. А Вы не могли бы разделить это список по родам существительных, а внутри родов по одушевленности/неодушевленности (т. е. всего 6 списков)?
Каких слов нет в словаре Opencorpora?
Comment #3 originally posted by OpenCorpora on 2013-02-10T11:05:55.000Z:
табличка в гуглодоках: https://docs.google.com/spreadsheet/ccc?key=0As9XSeRgdNihdDRBblgyM1lnSGxwRm9kRTJka2hfVWc&usp=sharing
Немного сложнее получилось, чем 6 списков, т.к.: несловарные слова непонятно, куда относить; бывает, что у одного слова несколько разборов; Ms-f встречаются.
Там в колонках есть фильтры, по ним можно фильтровать списки. Например, чтоб выбрать все словарные слова, для которых есть разбор мужского рода, нужно:
- ткнуть на "стрелку вниз" рядом с "known" в заголовке и снять галочку с "пустые";
- ткнуть на "стрелку вниз" рядом с "masc" и снять галочку с "пустые".
ну или "Файл-Скачать как-[Excel/OpenOffice]" и дальше уже там.
Comment #4 originally posted by OpenCorpora on 2013-02-10T11:10:00.000Z:
Кстати, там ведь многим словам из списка общий род можно еще приписать? "она адвокат" и т.д.?
Comment #5 originally posted by OpenCorpora on 2013-02-10T11:14:37.000Z:
А, еще, разборы там в табличке оставлены только те, в которых есть NOUN,nomn,plur. Поэтому у некоторых слов (например, "ясновидящие") нет в колонке "tags" ничего (оно сейчас разбирается как ADJF plur,nomn / ADJF inan,plur,accs).
Comment #6 originally posted by OpenCorpora on 2013-02-12T09:51:06.000Z:
Так, глазами пробежался по словам в словаре, которые на "щики" заканчиваются - по ощущениям, табличка в гуглодоках сильно неполная, и если второй винительный в словарь добавлять, то лучше еще просто по словарю формы повытаскивать (видимо, глазами просматривая слова, оканчивающиеся на одно из вероятных окончаний).
Comment #8 originally posted by OpenCorpora on 2014-03-27T14:15:01.000Z:
Напомните, пожалуйста, тут кто что сейчас должен сделать?
Comment #9 originally posted by OpenCorpora on 2014-03-27T14:47:16.000Z:
Да непонятно. У нас есть примерно 5к слов, про которые мне показалось, что они могут быть формами второго винительного. Выбирал вручную, из корпуса и википедии. Есть ли другие слова, которым можно приписать acc2 - скорее всего, есть. Но наиболее частотные должны, вроде как, в списке быть, корпус большой был (дамп какой-то сетевой библиотеки на много гигов). Есть ли в 5к списке ошибки - скорее всего, тоже есть. Света просила хитрую табличку сделать - видимо, у нее какие-то идеи были, что с этим всем дальше делать?
Comment #11 originally posted by OpenCorpora on 2014-04-22T17:09:53.000Z:
Я правильно понимаю, что речь идет о формах типа "годится в отцы", "метит в президенты", "я бы в летчики пошел" и т.п.? Если да, то второй винительный может быть потенциально у любого одушевленного существительного и форма его будет совпадать с именительным. Т.е., с увеличением корпуса, по которому построен ваш список, он будет будет асимптотически приближаться к списку всех одушевленных. Такое вот простое правило. Не проще ли его зашить в морфанализатор?
Comment #12 originally posted by OpenCorpora on 2014-06-11T12:33:46.000Z:
Света, Миша, вы согласны, что такое правило проще зашить в анализатор или вообще в синтаксис?
Comment #13 originally posted by OpenCorpora on 2014-06-11T13:10:36.000Z:
Было бы хорошо добавить в виде правила: В + мн, одуш, им -> в + мн, одуш, вин2
Comment #14 originally posted by OpenCorpora on 2014-06-11T13:13:51.000Z:
Я - не знаю. Я за то, чтоб добавить в словарь, даже если все подчиняется какому-то правилу, но каких-то особых аргументов нет.
Мне казалось, что часть слов не встречается в форме второго винительного. Если все могут, то можно не добавлять в словарь OpenCorpora. Могу в таком случае их сам в добавлять, по какому-то правилу, на этапе компиляции словаря в формат pymorphy2.
Вам тоже хорошо-бы как-то учитывать, что "космонавты" - это не обязательно именительный падеж, и снимать эту неоднозначность в корпусе.
Правило Сергея неполное - например, "эту книгу отнесли в бестселлеры" - "бестселлер" - неодушевленное слово. Ну и всякие детали - большая часть одушевленных существительных в словаре - это имена/отчества и т.д., нужно понять, что с ними делать. Что делать с Fixd, опять же.
Comment #15 originally posted by OpenCorpora on 2014-06-11T13:44:58.000Z:
Подожди, "отнесли в бестселлеры" - это обычный винительный падеж.
В корпусе мы можем проставлять второй винительный падеж у конкретного слова, как, например, субстантивацию (правда, мы этого пока не умеем, но концептуально это будет так).
Comment #16 originally posted by OpenCorpora on 2014-06-11T14:05:04.000Z:
// Упс!
nomn,Subx вместо acc2? Это как-то странно для винительного падежа выглядит, и неудобно для работы. Мне кажется, от таких неочевидных соглашений лучше избавляться. Это как сейчас у слова "Саша" женский падеж стоит безальтернативно, форма мужского рода как-бы подразумевается из-за того, что Ms-f граммема есть, про это абсолютно нигде не написано, и это даже за неоднозначность не считается (разбор-то один). Мне кажется, лучше явно добавить дополнительный разбор, чем такого рода хитрости плодить.
Comment #17 originally posted by OpenCorpora on 2014-06-11T14:09:49.000Z:
Не, не nomn,Subx. В словаре - как сейчас, например, космонавты plur,nomn В корпусе - [пойти в] космонавты plur,nomn,accs2
Comment #18 originally posted by OpenCorpora on 2014-06-11T14:18:49.000Z:
Почему там должна быть граммема nomn, если падеж у слова не именительный?
Comment #19 originally posted by OpenCorpora on 2014-06-11T14:22:51.000Z:
Чтобы не противоречить словарю
Comment #20 originally posted by OpenCorpora on 2014-06-11T14:34:12.000Z:
А если добавить acc2 в словарь, то разборы в корпусе тоже не будут противоречить словарю, плюс они не будут противоречить здравому смыслу :)
Comment #21 originally posted by OpenCorpora on 2014-06-11T14:36:44.000Z:
Согласен с Мишей, что "попасть в бестселлеры" - второй винительный, как и "попасть в космонавты". Совпадение первого и второго винительных по форме (заодно и с именительным множественного) еще не означает совпадение грамматических значений (что это один и тот же падеж). Падеж - это синтаксическая позиция и в обоих примерах она одна. Если мы признаём второй винительный в "попасть в космонавты", то должны признать его и в "попасть в бестселлеры". Таким образом, в "правило Сергея" нужно включить все существительные.
Про то, что такое падеж, есть замечательная статья:
http://www.kolmogorov.info/uspensky-k_opredeleniyu_padezha_po_kolmogorovu.html
Вот выдержка из нее:
"IV. Какие есть падежи в русском языке?
Ответ на этот вопрос колеблется от шести падежей школьных учебников до одиннадцати падежей монографии [РИС]. Вряд ли можно предъявить общепризнанный список русских падежей. (Да что говорить о падежах: нет и общепризнанного списка родов, и даже общепризнанного списка знаков препинания.)"
Таким образом, если вы признаете наличие, например, "ждательного" падежа в сочетаниях "ждать автобуса", "ждать письма", "не носить часов", то вам нужно на уровне морфологии определить наличие такого падежа (ввести новую граммему) и занести в словарь необходимые формы (потенциально у всех существительных). Или можно учесть это явление на уровне синтаксиса парой не очень сложных правил.
Вопрос про "второй винительный" - такого же порядка. Либо мы признаем наличие второго винительного на уровне морфологии и тогда место ему в словаре, либо говорим, что предлог "в" может управлять именительным, т.е. смещаем решение в область синтаксиса.
Что для вас удобнее - решать вам.
Comment #22 originally posted by OpenCorpora on 2014-06-11T14:38:17.000Z:
Да я в целом даже согласен, просто описывал альтернативу
Comment #23 originally posted by OpenCorpora on 2014-06-11T14:56:17.000Z:
Мы знаем про существование второго винительного и хотим, чтобы он был проставлен в корпусе, однако, с другой стороны, мы хотим, что корпус как можно быстрей был размечен и отмодерирован, поэтому мы иногда идем на компромиссы. Зная, что случаев "идти в солдаты" в корпусе может быть штук 10: пока при модерации мне встретилось два-три случая, которые я пометила как "частично правильно" и в примечании написала 2 вин. Вы же предлагает либо всем существительным, либо всем одушевленным существительным добавлять такой разбор, что приведет к умножениею в вероятно несколько десятков раз кол-ва заданий для разметки и модерации ради 10 случаев. Поэтому мне кажется более правильным путем, вставить правило в морфоанализатор, например, автоматически добавляя дополнительный разбор с интерпретацией винительного или винительного второго после предлога "в " и проставляя этому разбору большую условную вероятность. В примерах "попасть в солдаты/бестеллеры" -- вин падеж, но в случае с одуш сущ используется форма им, лишь поэтому он называет второй вин.
Comment #24 originally posted by OpenCorpora on 2014-06-11T15:00:04.000Z:
Ещё можно сделать так: завести специальную помету в словаре типа "эта форма существует, но по умолчанию в список возможных разборов добавлять её не надо". Тем самым омонимия не вырастет, но пре необходимости можно будет достать эту форму и привязать к токену. Заодно можно поставить эту помету формам типа из/NOUN, при/VERB и т.п.
Comment #25 originally posted by OpenCorpora on 2014-06-11T15:14:42.000Z:
Новая помета мне нравится. Тогда что надо будет делать, когда такой случай встретится в корпусе, ставить как раньше? Или например при модерации ты сделаешь возможность дополнительного разбора второй вин и я его буду выбирать
Из /NOUn -- это из Домодедово? Что такое при/Verb?
Comment #26 originally posted by OpenCorpora on 2014-06-11T15:18:16.000Z:
Модерации в таких случаях не будет, ведь не будет и лишнего разбора. Так что надо будет по каким-то правилам найти эти случаи в корпусе и сделать [некое ещё не реализованное действие с разметкой].
из/NOUN - это здесь http://opencorpora.org/dict.php?act=edit&id=117681&found_form=%D0%B8%D0%B7 при/VERB - это здесь http://opencorpora.org/dict.php?act=edit&id=235765&found_form=%D0%BF%D1%80%D0%B8 (а есть ещё при/NOUN)
Comment #27 originally posted by OpenCorpora on 2014-06-11T15:22:54.000Z:
А сделать так, что при модерации появлялись новые разборы нельзя?
Comment #28 originally posted by OpenCorpora on 2014-06-11T15:25:20.000Z:
Так откуда там будет модерация? Вот у тебя будет слово "космонавты", у него один разбор (потому что второй с нашей гипотетической пометой), неоднозначности нет, в пулы не попадёт, модерации нет.
для того, кто когда-то будет писать правила нахождения второго винительного: мне попался пример в корпусе "производим в юродивые".
ещё есть такие примеры: кандидат в президенты / мэры / друзья / ...