Кое-какие слова не выдают ожидаемых от них искажений
За время пользования столкнулся с некоторыми словами, у которых не выдавались нужные мне склонения/рода и т.п. Ниже перечень в виде "слово - нераспознанное искажение слова" (то есть та, которую не выдаёт деесклад). "ливнуть" - ливни (может путает со словом ливень?) "замьютить" - замьючу "троллить" - троллят "вебка" - вебок, вебке, вебки Походу слова слева неправильно определяются (не определяются как глаголы или существительные). Если ещё что-либо обнаружу - дополню.
Добавляйте в opencorpora ! Билды делаются на её основе, можете сами сделать билд для себя.
Я там прописался, что дальше? Нужно нажать "добавить лемму" или что? Многих мусорных слов там нетути, но они ладно склоняются/искажаются вашим деескладом (например "хайп"). Или большинство слов и так ладно склоняются, а вот некоторые (которые я указал выше) надобно прописывать вручную?
Да, исключения и неправильно работающие леммы+словоформы надо добавить. Я добавил. Ливнуть (инф) - по аналогии с мокнуть Ливну (глагол) -- по аналогии с мокну ... Вебка (сущ) -- по аналогии с кнопка
@griever-gf Слова ваши добавляю. Пожалуйста, имейте в виду, что мы не добавляем в словарь опечатки за редким исключением. Ваши добавления с опечатками будут отклоняться.
Обнаружилось слово, которое есть в opencorpora (и его искажения), однако тоже не выдавало искажения, хотя по другим причинам - "деньги". Дело в том, что opencorpora считает "нормальной формой" не "деньги", а "деньга". У меня была ошибка в коде из-за этого, так как в моей БД хранилась запись с "деньги", а по выдаваемым морфером "нормальным формам" такой нормальной формы не было. Поэтому запрос не срабатывал, и всякие искажения вроде "деньгами", "денег" и т.д. не отлавливались как относящиеся к "деньги". Ну, эту ошибку я обнаружил и костылём исправил, внеся запись с "деньга", но лучше было бы, если среди нормальных форм были бы "деньги", так как чаще всего применяется множественное число. Не знаю, грамотная моя просьба или нет, но написал разрабам opencorpora на мыло по этому поводу.
@griever-gf в opencorpora нет явного понятия "начальная форма" (хотя есть понятие "лемма" и оно обычно отражает начальную форму -- например, для этого слова лемма будет "деньги"), но в pymorphy2 есть inflect, у которого для существительных стоит форма единственного числа именительного падежа. Есть помета "Infr" -- разговорное, а у слова "ножницы" есть помета Pltm (plurale tantum, "только множественное число"), можете при inflect такие пометы учитывать.
Новая непонятка:
Почему для наречий навроде "физически", "автоматически", "катастрофически", "политически" и т.п. не выдаётся в качестве нормальной формы "физический", "автоматический", "катастрофический" и т.п.?
Хотя для наречий, не заканчивающихся на "и", например "нормально", "читабельно" и т.п. всё хорошо, в normal_forms выдаётся "нормальный", "читабельный" и т.п.