opencorpora
opencorpora copied to clipboard
Слова с отсутствующей буквой Ё
Comment #1 originally posted by OpenCorpora on 2012-09-17T13:34:36.000Z:
попробовала изменить словарь (слово Федор) Меняется везде, кроме поля "Лемма", там серый фон, она потом сама исправится?
Comment #2 originally posted by OpenCorpora on 2012-09-17T13:47:15.000Z:
Хм, нет, сама не изменится. См issue 324
Comment #4 originally posted by OpenCorpora on 2012-09-18T10:21:39.000Z:
Теперь можно менять и лемму. Экспорт словаря по идее ближайшей ночью сам перегенерируется.
Comment #5 originally posted by OpenCorpora on 2012-09-19T20:25:58.000Z:
Ещё найдутся - переоткрывайте ттикет
Comment #6 originally posted by OpenCorpora on 2012-10-09T13:35:55.000Z:
там еще слова, начинающиеся с "четырёх" (постарался оставить только нормальные формы - или все удобнее будет?):
ЧЕТЫРЕХВАЛЕНТНОСТЬ ЧЕТЫРЕХКРАТНОСТЬ ЧЕТЫРЕХЛИСТНИК ЧЕТЫРЕХМИЛЛИАРДНЫЙ ЧЕТЫРЕХМИЛЛИОННЫЙ ЧЕТЫРЕХОКИСЬ ЧЕТЫРЕХПОЛЮСНИК ЧЕТЫРЕХСОТЛЕТИЕ ЧЕТЫРЕХСОТЛЕТЬЕ ЧЕТЫРЕХСТОРОННИК ЧЕТЫРЕХТЫСЯЧНЫЙ ЧЕТЫРЕХХОЛМИЕ ЧЕТЫРЕХХОЛМЬЕ
ЧЕТЫРЕХСОТ
Comment #8 originally posted by OpenCorpora on 2012-10-09T13:49:04.000Z:
ну и с "Фёдор":
ФЕДОРОВ ФЕДОРОВИЧ ФЕДОРОВНА ФЕДОРОВКА ФЕДОРОВСКИЙ ФЕДОРЫЧ
Тут, похоже, варианты как с ё, так и без ё нужны (хотя не везде уверен, смотрите). В словаре сейчас только без ё. Там еще много слов на ФЕДОР.., но я еще менее уверен, что там написание с ё нормативное.
Comment #10 originally posted by OpenCorpora on 2012-10-16T12:12:51.000Z:
Я добавила ё. Чтобы не плодить многозначность "федоровым" решили сделать одной лемме с ё.
Дима, сейчас на сайте при поиске переделанные слова выдаются без ё (как результат поиска). При этом, когда ты входишь в парадигму найденного слова, то там все нормально, ё есть.
Comment #11 originally posted by OpenCorpora on 2013-01-23T22:29:04.000Z:
Еще форма "о чём-нибудь" через е в словаре.
.. это ОК в этот тикет писать?
Comment #13 originally posted by OpenCorpora on 2013-01-24T07:29:52.000Z:
да, это ОК в этот тикет писать
Comment #15 originally posted by OpenCorpora on 2013-02-06T16:26:48.000Z:
Леша, Алеша, Леха без ё в словаре (+ для них нет формы звательного падежа).
Comment #16 originally posted by OpenCorpora on 2013-02-07T11:06:47.000Z:
добавила ё и звательный падеж
Comment #17 originally posted by OpenCorpora on 2013-02-08T20:11:50.000Z:
вахтер, рекрутер (второе вроде можно по-разному писать)
Comment #18 originally posted by OpenCorpora on 2013-02-09T15:19:26.000Z:
Брр, я занимаюсь ерундой. Распарсил русскую википедию, нашел там все слова с ё, выбрал из них те, которых нет в словаре OpenCorpora, но которые там есть, если Ё на Е заменить, отсортировал по частоте униграмм; результат во вложении (цифры - сколько раз форма встречается в википедии).
Comment #19 originally posted by OpenCorpora on 2013-02-09T15:20:58.000Z:
Список вычитать, понятно, нужно будет, там странностей немало.
Comment #20 originally posted by OpenCorpora on 2013-02-10T14:16:33.000Z:
Увидел поправку в словаре про вахтеров: там формы множественного числа косвенных падежей все еще без ё.
Comment #21 originally posted by OpenCorpora on 2013-02-12T09:23:48.000Z:
те, которые без ё, они разговорные, но мы об этом подумаем
Comment #22 originally posted by OpenCorpora on 2013-02-12T09:35:31.000Z:
Вроде там формы единственного числа без ё разговорные; множественного косвенных падежей - просто опечатки (см. вложение).
Comment #24 originally posted by OpenCorpora on 2013-02-12T09:58:10.000Z:
Спасибо! Там только две одинаковых формы "вахтёры" стало :)
Comment #26 originally posted by OpenCorpora on 2013-03-27T11:31:46.000Z:
Проблема со списком e-words.csv состоит в том, что там есть слова, у которых ё должно стоять в каждой форме парадигмы (семён), а других только в отдельных формах (пётр, но петра). Так как вероятно в википедии представлены не все формы для каждой парадигмы, мы не можем просто автоматически в нашем словаре добавить формам из списка e-words.csv букву ё, поскольку в некоторых парадигмах будут "дырки" (из-за того, что конкретная форма не представлена в википедии). Однако если бы Вы могли достать из викисловаря индексы Зализняка для слов из списка, тогда можно было адекватно проставить ё, поскольку он отмечает сдвиги с ё Просмотрела несколько первых слов:
приобрёл - 7b/b(9) - ё должно быть буд, 2л, мн (приобретём) и прош, 3л мр, ед (приобрёл) семён - 1а - ё во всей парадигме
Может быть, слов с индексами будет мало
Comment #27 originally posted by OpenCorpora on 2013-03-27T13:28:27.000Z:
Привет.
Автоматически там добавлять может не получиться, по другим причинам: многие формы с ё ошибочные (или как минимум Infr - всёх, хребёт), некоторые - странные (лёгкоатлетка); часть форм должна заменять существующие формы (семён), а часть - видимо, добавляться как новые (приближённые, лёни).
С викисловарем идея интересная. Там еще проще выходит: например, в слове "приобрёл" в викисловаре все буквы ё уже расставлены правильно. Так что это может быть одной из подзадач в https://code.google.com/p/opencorpora/issues/detail?id=157&colspec=ID%20Type%20Status%20Priority%20Owner%20Summary . Может, будет проще формы сопоставлять, а не индексы, - хотя не знаю. Если индекс указан правильно, то и формы, наверное, должны быть указаны правильно.
Я в ближайшее время по викисловарю проверить ничего не смогу - может, самые распространенные вручную поправить пока (семён, пётр, артём, приобрёл)?
Comment #28 originally posted by OpenCorpora on 2013-04-22T18:48:20.000Z:
Поставила ё словам в скобках + отчествам от них
Comment #29 originally posted by OpenCorpora on 2013-04-25T14:15:07.000Z:
Мда. Предлагаю отсмотреть глазами топ-100 (или 200) списка и поправить, где надо. Остальное делать, если будет желание или жалобы. Как вам?