opencorpora icon indicating copy to clipboard operation
opencorpora copied to clipboard

Слова с отсутствующей буквой Ё

Open grandsbor opened this issue 10 years ago • 42 comments
trafficstars

Original issue 322 created by OpenCorpora on 2012-09-17T13:31:23.000Z:

ФЕДОР ЧЕТЫРЕХ

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #1 originally posted by OpenCorpora on 2012-09-17T13:34:36.000Z:

попробовала изменить словарь (слово Федор) Меняется везде, кроме поля "Лемма", там серый фон, она потом сама исправится?

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #2 originally posted by OpenCorpora on 2012-09-17T13:47:15.000Z:

Хм, нет, сама не изменится. См issue 324

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #3 originally posted by OpenCorpora on 2012-09-17T13:50:02.000Z:

"четырех" изменила

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #4 originally posted by OpenCorpora on 2012-09-18T10:21:39.000Z:

Теперь можно менять и лемму. Экспорт словаря по идее ближайшей ночью сам перегенерируется.

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #5 originally posted by OpenCorpora on 2012-09-19T20:25:58.000Z:

Ещё найдутся - переоткрывайте ттикет

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #6 originally posted by OpenCorpora on 2012-10-09T13:35:55.000Z:

там еще слова, начинающиеся с "четырёх" (постарался оставить только нормальные формы - или все удобнее будет?):

ЧЕТЫРЕХВАЛЕНТНОСТЬ ЧЕТЫРЕХКРАТНОСТЬ ЧЕТЫРЕХЛИСТНИК ЧЕТЫРЕХМИЛЛИАРДНЫЙ ЧЕТЫРЕХМИЛЛИОННЫЙ ЧЕТЫРЕХОКИСЬ ЧЕТЫРЕХПОЛЮСНИК ЧЕТЫРЕХСОТЛЕТИЕ ЧЕТЫРЕХСОТЛЕТЬЕ ЧЕТЫРЕХСТОРОННИК ЧЕТЫРЕХТЫСЯЧНЫЙ ЧЕТЫРЕХХОЛМИЕ ЧЕТЫРЕХХОЛМЬЕ

ЧЕТЫРЕХСОТ

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #8 originally posted by OpenCorpora on 2012-10-09T13:49:04.000Z:

ну и с "Фёдор":

ФЕДОРОВ ФЕДОРОВИЧ ФЕДОРОВНА ФЕДОРОВКА ФЕДОРОВСКИЙ ФЕДОРЫЧ

Тут, похоже, варианты как с ё, так и без ё нужны (хотя не везде уверен, смотрите). В словаре сейчас только без ё. Там еще много слов на ФЕДОР.., но я еще менее уверен, что там написание с ё нормативное.

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #9 originally posted by OpenCorpora on 2012-10-10T18:28:22.000Z:

"Алёна" еще через е.

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #10 originally posted by OpenCorpora on 2012-10-16T12:12:51.000Z:

Я добавила ё. Чтобы не плодить многозначность "федоровым" решили сделать одной лемме с ё.

Дима, сейчас на сайте при поиске переделанные слова выдаются без ё (как результат поиска). При этом, когда ты входишь в парадигму найденного слова, то там все нормально, ё есть.

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #11 originally posted by OpenCorpora on 2013-01-23T22:29:04.000Z:

Еще форма "о чём-нибудь" через е в словаре.

.. это ОК в этот тикет писать?

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #12 originally posted by OpenCorpora on 2013-01-23T23:19:38.000Z:

о чём-то через е тоже

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #13 originally posted by OpenCorpora on 2013-01-24T07:29:52.000Z:

да, это ОК в этот тикет писать

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #14 originally posted by OpenCorpora on 2013-01-24T10:16:53.000Z:

добавила ё

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #15 originally posted by OpenCorpora on 2013-02-06T16:26:48.000Z:

Леша, Алеша, Леха без ё в словаре (+ для них нет формы звательного падежа).

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #16 originally posted by OpenCorpora on 2013-02-07T11:06:47.000Z:

добавила ё и звательный падеж

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #17 originally posted by OpenCorpora on 2013-02-08T20:11:50.000Z:

вахтер, рекрутер (второе вроде можно по-разному писать)

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #18 originally posted by OpenCorpora on 2013-02-09T15:19:26.000Z:

Брр, я занимаюсь ерундой. Распарсил русскую википедию, нашел там все слова с ё, выбрал из них те, которых нет в словаре OpenCorpora, но которые там есть, если Ё на Е заменить, отсортировал по частоте униграмм; результат во вложении (цифры - сколько раз форма встречается в википедии).

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #19 originally posted by OpenCorpora on 2013-02-09T15:20:58.000Z:

Список вычитать, понятно, нужно будет, там странностей немало.

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #20 originally posted by OpenCorpora on 2013-02-10T14:16:33.000Z:

Увидел поправку в словаре про вахтеров: там формы множественного числа косвенных падежей все еще без ё.

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #21 originally posted by OpenCorpora on 2013-02-12T09:23:48.000Z:

те, которые без ё, они разговорные, но мы об этом подумаем

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #22 originally posted by OpenCorpora on 2013-02-12T09:35:31.000Z:

Вроде там формы единственного числа без ё разговорные; множественного косвенных падежей - просто опечатки (см. вложение).

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #23 originally posted by OpenCorpora on 2013-02-12T09:37:19.000Z:

Исправила, спасибо :)

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #24 originally posted by OpenCorpora on 2013-02-12T09:58:10.000Z:

Спасибо! Там только две одинаковых формы "вахтёры" стало :)

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #25 originally posted by OpenCorpora on 2013-02-12T10:01:47.000Z:

спасибо еще раз

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #26 originally posted by OpenCorpora on 2013-03-27T11:31:46.000Z:

Проблема со списком e-words.csv состоит в том, что там есть слова, у которых ё должно стоять в каждой форме парадигмы (семён), а других только в отдельных формах (пётр, но петра). Так как вероятно в википедии представлены не все формы для каждой парадигмы, мы не можем просто автоматически в нашем словаре добавить формам из списка e-words.csv букву ё, поскольку в некоторых парадигмах будут "дырки" (из-за того, что конкретная форма не представлена в википедии). Однако если бы Вы могли достать из викисловаря индексы Зализняка для слов из списка, тогда можно было адекватно проставить ё, поскольку он отмечает сдвиги с ё Просмотрела несколько первых слов:

приобрёл - 7b/b(9) - ё должно быть буд, 2л, мн (приобретём) и прош, 3л мр, ед (приобрёл) семён - 1а - ё во всей парадигме

Может быть, слов с индексами будет мало

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #27 originally posted by OpenCorpora on 2013-03-27T13:28:27.000Z:

Привет.

Автоматически там добавлять может не получиться, по другим причинам: многие формы с ё ошибочные (или как минимум Infr - всёх, хребёт), некоторые - странные (лёгкоатлетка); часть форм должна заменять существующие формы (семён), а часть - видимо, добавляться как новые (приближённые, лёни).

С викисловарем идея интересная. Там еще проще выходит: например, в слове "приобрёл" в викисловаре все буквы ё уже расставлены правильно. Так что это может быть одной из подзадач в https://code.google.com/p/opencorpora/issues/detail?id=157&colspec=ID%20Type%20Status%20Priority%20Owner%20Summary . Может, будет проще формы сопоставлять, а не индексы, - хотя не знаю. Если индекс указан правильно, то и формы, наверное, должны быть указаны правильно.

Я в ближайшее время по викисловарю проверить ничего не смогу - может, самые распространенные вручную поправить пока (семён, пётр, артём, приобрёл)?

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #28 originally posted by OpenCorpora on 2013-04-22T18:48:20.000Z:

Поставила ё словам в скобках + отчествам от них

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #29 originally posted by OpenCorpora on 2013-04-25T14:15:07.000Z:

Мда. Предлагаю отсмотреть глазами топ-100 (или 200) списка и поправить, где надо. Остальное делать, если будет желание или жалобы. Как вам?

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #30 originally posted by OpenCorpora on 2013-04-25T16:31:32.000Z:

Хорошо. Сделаю первых 150

grandsbor avatar Mar 17 '15 01:03 grandsbor

Comment #33 originally posted by OpenCorpora on 2014-05-12T11:40:16.000Z:

Тут что-нибудь сделалось?

grandsbor avatar Mar 17 '15 01:03 grandsbor