pymorphy2 icon indicating copy to clipboard operation
pymorphy2 copied to clipboard

Кое-какие слова не выдают ожидаемых от них искажений

Open griever-gf opened this issue 3 years ago • 7 comments

За время пользования столкнулся с некоторыми словами, у которых не выдавались нужные мне склонения/рода и т.п. Ниже перечень в виде "слово - нераспознанное искажение слова" (то есть та, которую не выдаёт деесклад). "ливнуть" - ливни (может путает со словом ливень?) "замьютить" - замьючу "троллить" - троллят "вебка" - вебок, вебке, вебки Походу слова слева неправильно определяются (не определяются как глаголы или существительные). Если ещё что-либо обнаружу - дополню.

griever-gf avatar Feb 09 '22 12:02 griever-gf

Добавляйте в opencorpora ! Билды делаются на её основе, можете сами сделать билд для себя.

buriy avatar Feb 09 '22 12:02 buriy

Я там прописался, что дальше? Нужно нажать "добавить лемму" или что? Многих мусорных слов там нетути, но они ладно склоняются/искажаются вашим деескладом (например "хайп"). Или большинство слов и так ладно склоняются, а вот некоторые (которые я указал выше) надобно прописывать вручную?

griever-gf avatar Feb 09 '22 21:02 griever-gf

Да, исключения и неправильно работающие леммы+словоформы надо добавить. Я добавил. Ливнуть (инф) - по аналогии с мокнуть Ливну (глагол) -- по аналогии с мокну ... Вебка (сущ) -- по аналогии с кнопка

buriy avatar Feb 10 '22 00:02 buriy

@griever-gf Слова ваши добавляю. Пожалуйста, имейте в виду, что мы не добавляем в словарь опечатки за редким исключением. Ваши добавления с опечатками будут отклоняться.

Shimorina avatar Feb 13 '22 15:02 Shimorina

Обнаружилось слово, которое есть в opencorpora (и его искажения), однако тоже не выдавало искажения, хотя по другим причинам - "деньги". Дело в том, что opencorpora считает "нормальной формой" не "деньги", а "деньга". У меня была ошибка в коде из-за этого, так как в моей БД хранилась запись с "деньги", а по выдаваемым морфером "нормальным формам" такой нормальной формы не было. Поэтому запрос не срабатывал, и всякие искажения вроде "деньгами", "денег" и т.д. не отлавливались как относящиеся к "деньги". Ну, эту ошибку я обнаружил и костылём исправил, внеся запись с "деньга", но лучше было бы, если среди нормальных форм были бы "деньги", так как чаще всего применяется множественное число. Не знаю, грамотная моя просьба или нет, но написал разрабам opencorpora на мыло по этому поводу.

griever-gf avatar Feb 18 '22 17:02 griever-gf

@griever-gf в opencorpora нет явного понятия "начальная форма" (хотя есть понятие "лемма" и оно обычно отражает начальную форму -- например, для этого слова лемма будет "деньги"), но в pymorphy2 есть inflect, у которого для существительных стоит форма единственного числа именительного падежа. Есть помета "Infr" -- разговорное, а у слова "ножницы" есть помета Pltm (plurale tantum, "только множественное число"), можете при inflect такие пометы учитывать.

buriy avatar Feb 19 '22 11:02 buriy

Новая непонятка:

Почему для наречий навроде "физически", "автоматически", "катастрофически", "политически" и т.п. не выдаётся в качестве нормальной формы "физический", "автоматический", "катастрофический" и т.п.?

Хотя для наречий, не заканчивающихся на "и", например "нормально", "читабельно" и т.п. всё хорошо, в normal_forms выдаётся "нормальный", "читабельный" и т.п.

griever-gf avatar Mar 22 '22 08:03 griever-gf