pymorphy2
pymorphy2 copied to clipboard
Ошибка определения части речи для некоторых профессий
Здравствуйте!
Наткнулась на то, что для слов "промоутер", "девелопер" и "слесарь"
morph_analyser.parse(word)[0].tag.POS
- это почему-то VERB, а для "ресепшен" - PRTS.
Мне кажется, пора уже в документации где-то написать, что по одному слову со 100% точностью нельзя определить его часть речи и форму. Никто не гарантирует, что "нулевым" вариантом разбора будет существительное "селесарь", а не глагол в повелительной форме "слесарь". Выход в данном случае - не брать всегда нулевой вариант разбора, а учитывать все варианты, и если у вас в этом месте предполагается существительное, то отбирать варианты разбора с частью речи "существительное", и смотреть какая это может быть форма.
P.S. по поводу промоутер, девелопер, ресепшн - данных слов просто нет в словаре, поэтому анализатор просто пытается угадать что это за часть речи может быть.
Мне кажется, пора уже в документации где-то написать, что по одному слову со 100% точностью нельзя определить его часть речи и форму.
Сейчас в документации есть вот такой раздел: http://pymorphy2.readthedocs.io/en/latest/user/guide.html#select-correct. Идеи, как его улучшить - приветствуются :)
Мне скорее было непонятно, откуда берется тэг VERB для "промоутер" и "девелопер". Думала, если анализатор угадывает, то, наверное, как-то смотрит на последние символы слова по аналогии со стеммерами. А для любого слова, оканчивающегося на -ер, можно с очень большой долей вероятности сказать, что это существительное :) Спасибо за разъяснения и оперативный ответ!
Не знаю, как работает предсказатель, но вот вполне себе глаголы на -ер: тер, пер, умер.
On Mon, 12 Jun 2017, 01:53 Sophia Sorokina, [email protected] wrote:
Мне скорее было непонятно, откуда берется тэг VERB для "промоутер" и "девелопер". Думала, если анализатор угадывает, то, наверное, как-то смотрит на последние символы слова по аналогии со стеммерами. А для любого слова, оканчивающегося на -ер, можно с очень большой долей вероятности сказать, что это существительное :) Спасибо за разъяснения и оперативный ответ!
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307665312, or mute the thread https://github.com/notifications/unsubscribe-auth/AD15-m02rhgkARKbGxxMDKTjecBZRONzks5sDH4WgaJpZM4N2cUh .
--
С уважением, Сергей Слепов
Да, кажется, глаголы на -ер и -ёр -- это закрытый класс, но предсказатель об этом не знает и предполагает глаголы.
2017-06-12 13:12 GMT+07:00 bzaar [email protected]:
Не знаю, как работает предсказатель, но вот вполне себе глаголы на -ер: тер, пер, умер.
On Mon, 12 Jun 2017, 01:53 Sophia Sorokina, [email protected] wrote:
Мне скорее было непонятно, откуда берется тэг VERB для "промоутер" и "девелопер". Думала, если анализатор угадывает, то, наверное, как-то смотрит на последние символы слова по аналогии со стеммерами. А для любого слова, оканчивающегося на -ер, можно с очень большой долей вероятности сказать, что это существительное :) Спасибо за разъяснения и оперативный ответ!
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307665312, or mute the thread <https://github.com/notifications/unsubscribe-auth/AD15- m02rhgkARKbGxxMDKTjecBZRONzks5sDH4WgaJpZM4N2cUh> .
--
С уважением, Сергей Слепов
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307697961, or mute the thread https://github.com/notifications/unsubscribe-auth/AABShLCiKLs3sI9IcSJ_tVQ5STCaxTTHks5sDNbFgaJpZM4N2cUh .
-- Best regards, Yuri V. Baburov, Skype: yuri.baburov
Ну, как закрытый. Всегда можно придумать что-то вроде "недоперетер" :)
А по существу - в pymorphy2 есть хоть какая-нибудь статистика, чтобы ранжировать варианты?
On Mon, 12 Jun 2017, 11:06 Yuri Baburov, [email protected] wrote:
Да, кажется, глаголы на -ер и -ёр -- это закрытый класс, но предсказатель об этом не знает и предполагает глаголы.
2017-06-12 13:12 GMT+07:00 bzaar [email protected]:
Не знаю, как работает предсказатель, но вот вполне себе глаголы на -ер: тер, пер, умер.
On Mon, 12 Jun 2017, 01:53 Sophia Sorokina, [email protected] wrote:
Мне скорее было непонятно, откуда берется тэг VERB для "промоутер" и "девелопер". Думала, если анализатор угадывает, то, наверное, как-то смотрит на последние символы слова по аналогии со стеммерами. А для любого слова, оканчивающегося на -ер, можно с очень большой долей вероятности сказать, что это существительное :) Спасибо за разъяснения и оперативный ответ!
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307665312,
or mute
the thread <https://github.com/notifications/unsubscribe-auth/AD15- m02rhgkARKbGxxMDKTjecBZRONzks5sDH4WgaJpZM4N2cUh> .
--
С уважением, Сергей Слепов
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307697961, or mute the thread < https://github.com/notifications/unsubscribe-auth/AABShLCiKLs3sI9IcSJ_tVQ5STCaxTTHks5sDNbFgaJpZM4N2cUh>
.
-- Best regards, Yuri V. Baburov, Skype: yuri.baburov
— You are receiving this because you commented.
Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307732157, or mute the thread https://github.com/notifications/unsubscribe-auth/AD15-qwNpUE_BIRNXoWMde2A9Qrm6udZks5sDP-HgaJpZM4N2cUh .
--
С уважением, Сергей Слепов
@bzaar
А по существу - в pymorphy2 есть хоть какая-нибудь статистика, чтобы ранжировать варианты?
Варианты ранжируются (см. ссылку Выбор правильного разбора, которую дал @kmike), но какой смысл в ранжировании, если без контекста все равно нельзя однозначно определить часть речи и форму слова? Поэтому на практике просто берем все варианты разбора, отфильтровываем только подходящие, потом смотрим на то что осталось.
какой смысл в ранжировании … ?
Смысл ранжирования в повышении точности разбора. Даже без учета контекста на одно «слесарь!» найдется 999 слесарей и первый разбор будет правильным с вероятностью 99.9%, а не 50%.
Если статистика есть и слова по ней ранжируются, то почему глагол «слесарь» вылез на первое место?
From: Mike Manturov [mailto:[email protected]] Sent: 12 June 2017 11:43 To: kmike/pymorphy2 [email protected] Cc: bzaar [email protected]; Mention [email protected] Subject: Re: [kmike/pymorphy2] Ошибка определения части речи для некоторых профессий (#95)
@bzaar https://github.com/bzaar
А по существу - в pymorphy2 есть хоть какая-нибудь статистика, чтобы ранжировать варианты?
Варианты ранжируются (см. ссылку Выбор правильного разбора http://pymorphy2.readthedocs.io/en/latest/user/guide.html#select-correct , которую дал @kmike https://github.com/kmike ), но какой смысл в ранжировании, если без контекста все равно нельзя однозначно определить часть речи и форму слова? Поэтому на практике просто берем все варианты разбора, отфильтровываем только подходящие, потом смотрим на то что осталось.
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307754259 , or mute the thread https://github.com/notifications/unsubscribe-auth/AD15-gkrxKjlm5S9O7CdXmB3hwvUhM1qks5sDRZHgaJpZM4N2cUh .
2017-06-12 17:27 GMT+07:00 bzaar [email protected]:
Ну, как закрытый. Всегда можно придумать что-то вроде "недоперетер" :)
Да, с точностью до известных приставок.
А по существу - в pymorphy2 есть хоть какая-нибудь статистика, чтобы ранжировать варианты?
http://pymorphy2.readthedocs.io/en/latest/internals/prediction.html#id3
Ааа, до меня дошло. "промоутер" = "промо" (префикс) + "утёр" (глагол). "девелопер" = "девел" (префикс) + "опёр" (глагол) Неизвестный префикс, длина префикса не больше 5 -- условия выполнены!
On Mon, 12 Jun 2017, 11:06 Yuri Baburov, [email protected] wrote:
Да, кажется, глаголы на -ер и -ёр -- это закрытый класс, но предсказатель об этом не знает и предполагает глаголы.
2017-06-12 13:12 GMT+07:00 bzaar [email protected]:
Не знаю, как работает предсказатель, но вот вполне себе глаголы на -ер: тер, пер, умер.
On Mon, 12 Jun 2017, 01:53 Sophia Sorokina, [email protected]
wrote:
Мне скорее было непонятно, откуда берется тэг VERB для "промоутер" и "девелопер". Думала, если анализатор угадывает, то, наверное, как-то смотрит на последние символы слова по аналогии со стеммерами. А для любого слова, оканчивающегося на -ер, можно с очень большой долей вероятности сказать, что это существительное :) Спасибо за разъяснения и оперативный ответ!
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307665312,
or mute
the thread <https://github.com/notifications/unsubscribe-auth/AD15- m02rhgkARKbGxxMDKTjecBZRONzks5sDH4WgaJpZM4N2cUh> .
--
С уважением, Сергей Слепов
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307697961,
or mute
the thread < https://github.com/notifications/unsubscribe-auth/AABShLCiKLs3sI9IcSJ_ tVQ5STCaxTTHks5sDNbFgaJpZM4N2cUh>
.
-- Best regards, Yuri V. Baburov, Skype: yuri.baburov
— You are receiving this because you commented.
Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307732157, or mute the thread <https://github.com/notifications/unsubscribe-auth/AD15-qwNpUE_ BIRNXoWMde2A9Qrm6udZks5sDP-HgaJpZM4N2cUh> .
--
С уважением, Сергей Слепов
— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307750975, or mute the thread https://github.com/notifications/unsubscribe-auth/AABShLxY5fpJKcho4fxnEn7f-IHcky1Qks5sDRJ_gaJpZM4N2cUh .
-- Best regards, Yuri V. Baburov, Skype: yuri.baburov