pymorphy2 icon indicating copy to clipboard operation
pymorphy2 copied to clipboard

Ошибка определения части речи для некоторых профессий

Open sophiasorokina opened this issue 7 years ago • 9 comments

Здравствуйте!

Наткнулась на то, что для слов "промоутер", "девелопер" и "слесарь" morph_analyser.parse(word)[0].tag.POS - это почему-то VERB, а для "ресепшен" - PRTS.

sophiasorokina avatar Jun 11 '17 16:06 sophiasorokina

Мне кажется, пора уже в документации где-то написать, что по одному слову со 100% точностью нельзя определить его часть речи и форму. Никто не гарантирует, что "нулевым" вариантом разбора будет существительное "селесарь", а не глагол в повелительной форме "слесарь". Выход в данном случае - не брать всегда нулевой вариант разбора, а учитывать все варианты, и если у вас в этом месте предполагается существительное, то отбирать варианты разбора с частью речи "существительное", и смотреть какая это может быть форма.

P.S. по поводу промоутер, девелопер, ресепшн - данных слов просто нет в словаре, поэтому анализатор просто пытается угадать что это за часть речи может быть.

insolor avatar Jun 11 '17 16:06 insolor

Мне кажется, пора уже в документации где-то написать, что по одному слову со 100% точностью нельзя определить его часть речи и форму.

Сейчас в документации есть вот такой раздел: http://pymorphy2.readthedocs.io/en/latest/user/guide.html#select-correct. Идеи, как его улучшить - приветствуются :)

kmike avatar Jun 11 '17 19:06 kmike

Мне скорее было непонятно, откуда берется тэг VERB для "промоутер" и "девелопер". Думала, если анализатор угадывает, то, наверное, как-то смотрит на последние символы слова по аналогии со стеммерами. А для любого слова, оканчивающегося на -ер, можно с очень большой долей вероятности сказать, что это существительное :) Спасибо за разъяснения и оперативный ответ!

sophiasorokina avatar Jun 11 '17 23:06 sophiasorokina

Не знаю, как работает предсказатель, но вот вполне себе глаголы на -ер: тер, пер, умер.

On Mon, 12 Jun 2017, 01:53 Sophia Sorokina, [email protected] wrote:

Мне скорее было непонятно, откуда берется тэг VERB для "промоутер" и "девелопер". Думала, если анализатор угадывает, то, наверное, как-то смотрит на последние символы слова по аналогии со стеммерами. А для любого слова, оканчивающегося на -ер, можно с очень большой долей вероятности сказать, что это существительное :) Спасибо за разъяснения и оперативный ответ!

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307665312, or mute the thread https://github.com/notifications/unsubscribe-auth/AD15-m02rhgkARKbGxxMDKTjecBZRONzks5sDH4WgaJpZM4N2cUh .

--

С уважением, Сергей Слепов

bzaar avatar Jun 12 '17 06:06 bzaar

Да, кажется, глаголы на -ер и -ёр -- это закрытый класс, но предсказатель об этом не знает и предполагает глаголы.

2017-06-12 13:12 GMT+07:00 bzaar [email protected]:

Не знаю, как работает предсказатель, но вот вполне себе глаголы на -ер: тер, пер, умер.

On Mon, 12 Jun 2017, 01:53 Sophia Sorokina, [email protected] wrote:

Мне скорее было непонятно, откуда берется тэг VERB для "промоутер" и "девелопер". Думала, если анализатор угадывает, то, наверное, как-то смотрит на последние символы слова по аналогии со стеммерами. А для любого слова, оканчивающегося на -ер, можно с очень большой долей вероятности сказать, что это существительное :) Спасибо за разъяснения и оперативный ответ!

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307665312, or mute the thread <https://github.com/notifications/unsubscribe-auth/AD15- m02rhgkARKbGxxMDKTjecBZRONzks5sDH4WgaJpZM4N2cUh> .

--

С уважением, Сергей Слепов

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307697961, or mute the thread https://github.com/notifications/unsubscribe-auth/AABShLCiKLs3sI9IcSJ_tVQ5STCaxTTHks5sDNbFgaJpZM4N2cUh .

-- Best regards, Yuri V. Baburov, Skype: yuri.baburov

buriy avatar Jun 12 '17 09:06 buriy

Ну, как закрытый. Всегда можно придумать что-то вроде "недоперетер" :)

А по существу - в pymorphy2 есть хоть какая-нибудь статистика, чтобы ранжировать варианты?

On Mon, 12 Jun 2017, 11:06 Yuri Baburov, [email protected] wrote:

Да, кажется, глаголы на -ер и -ёр -- это закрытый класс, но предсказатель об этом не знает и предполагает глаголы.

2017-06-12 13:12 GMT+07:00 bzaar [email protected]:

Не знаю, как работает предсказатель, но вот вполне себе глаголы на -ер: тер, пер, умер.

On Mon, 12 Jun 2017, 01:53 Sophia Sorokina, [email protected] wrote:

Мне скорее было непонятно, откуда берется тэг VERB для "промоутер" и "девелопер". Думала, если анализатор угадывает, то, наверное, как-то смотрит на последние символы слова по аналогии со стеммерами. А для любого слова, оканчивающегося на -ер, можно с очень большой долей вероятности сказать, что это существительное :) Спасибо за разъяснения и оперативный ответ!

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307665312,

or mute

the thread <https://github.com/notifications/unsubscribe-auth/AD15- m02rhgkARKbGxxMDKTjecBZRONzks5sDH4WgaJpZM4N2cUh> .

--

С уважением, Сергей Слепов

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307697961, or mute the thread < https://github.com/notifications/unsubscribe-auth/AABShLCiKLs3sI9IcSJ_tVQ5STCaxTTHks5sDNbFgaJpZM4N2cUh>

.

-- Best regards, Yuri V. Baburov, Skype: yuri.baburov

— You are receiving this because you commented.

Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307732157, or mute the thread https://github.com/notifications/unsubscribe-auth/AD15-qwNpUE_BIRNXoWMde2A9Qrm6udZks5sDP-HgaJpZM4N2cUh .

--

С уважением, Сергей Слепов

bzaar avatar Jun 12 '17 10:06 bzaar

@bzaar

А по существу - в pymorphy2 есть хоть какая-нибудь статистика, чтобы ранжировать варианты?

Варианты ранжируются (см. ссылку Выбор правильного разбора, которую дал @kmike), но какой смысл в ранжировании, если без контекста все равно нельзя однозначно определить часть речи и форму слова? Поэтому на практике просто берем все варианты разбора, отфильтровываем только подходящие, потом смотрим на то что осталось.

insolor avatar Jun 12 '17 10:06 insolor

какой смысл в ранжировании … ?

Смысл ранжирования в повышении точности разбора. Даже без учета контекста на одно «слесарь!» найдется 999 слесарей и первый разбор будет правильным с вероятностью 99.9%, а не 50%.

Если статистика есть и слова по ней ранжируются, то почему глагол «слесарь» вылез на первое место?

From: Mike Manturov [mailto:[email protected]] Sent: 12 June 2017 11:43 To: kmike/pymorphy2 [email protected] Cc: bzaar [email protected]; Mention [email protected] Subject: Re: [kmike/pymorphy2] Ошибка определения части речи для некоторых профессий (#95)

@bzaar https://github.com/bzaar

А по существу - в pymorphy2 есть хоть какая-нибудь статистика, чтобы ранжировать варианты?

Варианты ранжируются (см. ссылку Выбор правильного разбора http://pymorphy2.readthedocs.io/en/latest/user/guide.html#select-correct , которую дал @kmike https://github.com/kmike ), но какой смысл в ранжировании, если без контекста все равно нельзя однозначно определить часть речи и форму слова? Поэтому на практике просто берем все варианты разбора, отфильтровываем только подходящие, потом смотрим на то что осталось.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307754259 , or mute the thread https://github.com/notifications/unsubscribe-auth/AD15-gkrxKjlm5S9O7CdXmB3hwvUhM1qks5sDRZHgaJpZM4N2cUh .

bzaar avatar Jun 12 '17 12:06 bzaar

2017-06-12 17:27 GMT+07:00 bzaar [email protected]:

Ну, как закрытый. Всегда можно придумать что-то вроде "недоперетер" :)

Да, с точностью до известных приставок.

А по существу - в pymorphy2 есть хоть какая-нибудь статистика, чтобы ранжировать варианты?

http://pymorphy2.readthedocs.io/en/latest/internals/prediction.html#id3

Ааа, до меня дошло. "промоутер" = "промо" (префикс) + "утёр" (глагол). "девелопер" = "девел" (префикс) + "опёр" (глагол) Неизвестный префикс, длина префикса не больше 5 -- условия выполнены!

On Mon, 12 Jun 2017, 11:06 Yuri Baburov, [email protected] wrote:

Да, кажется, глаголы на -ер и -ёр -- это закрытый класс, но предсказатель об этом не знает и предполагает глаголы.

2017-06-12 13:12 GMT+07:00 bzaar [email protected]:

Не знаю, как работает предсказатель, но вот вполне себе глаголы на -ер: тер, пер, умер.

On Mon, 12 Jun 2017, 01:53 Sophia Sorokina, [email protected]

wrote:

Мне скорее было непонятно, откуда берется тэг VERB для "промоутер" и "девелопер". Думала, если анализатор угадывает, то, наверное, как-то смотрит на последние символы слова по аналогии со стеммерами. А для любого слова, оканчивающегося на -ер, можно с очень большой долей вероятности сказать, что это существительное :) Спасибо за разъяснения и оперативный ответ!

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307665312,

or mute

the thread <https://github.com/notifications/unsubscribe-auth/AD15- m02rhgkARKbGxxMDKTjecBZRONzks5sDH4WgaJpZM4N2cUh> .

--

С уважением, Сергей Слепов

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307697961,

or mute

the thread < https://github.com/notifications/unsubscribe-auth/AABShLCiKLs3sI9IcSJ_ tVQ5STCaxTTHks5sDNbFgaJpZM4N2cUh>

.

-- Best regards, Yuri V. Baburov, Skype: yuri.baburov

— You are receiving this because you commented.

Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307732157, or mute the thread <https://github.com/notifications/unsubscribe-auth/AD15-qwNpUE_ BIRNXoWMde2A9Qrm6udZks5sDP-HgaJpZM4N2cUh> .

--

С уважением, Сергей Слепов

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/kmike/pymorphy2/issues/95#issuecomment-307750975, or mute the thread https://github.com/notifications/unsubscribe-auth/AABShLxY5fpJKcho4fxnEn7f-IHcky1Qks5sDRJ_gaJpZM4N2cUh .

-- Best regards, Yuri V. Baburov, Skype: yuri.baburov

buriy avatar Jun 13 '17 03:06 buriy