opencorpora icon indicating copy to clipboard operation
opencorpora copied to clipboard

Слова типа "1-й"

Open grandsbor opened this issue 10 years ago • 5 comments
trafficstars

У нас до сих пор не принято никакого решения, что мы делаем со словами типа "1-й", "22-летний", "34-местный" и т.п. Сейчас они все UNKN, и их сравнительно немало. Есть не менее трёх альтернатив:

  1. Добавляем эти формы в словарь, в парадигмы к полным словам. Т.е. в парадигме слова "третий" появятся формы "3-й", "3-я", "3-ему" и др. Далее как с любыми другими формами. Когда-то давно мы почему-то решили так не делать. 1а. То же самое, но выносим все такие формы в отдельную лексему, потом между лексемами типа "2-й" и "второй" устанавливаем связь.
  2. В словарь ничего не добавляем. Делаем механизм связывания произвольного токена в корпусе с произвольной формой из словаря (или набором их). Вероятно, такой механизм потом пригодится для опечаток.

cc @victorbocharov @svbichineva

grandsbor avatar Jul 26 '15 18:07 grandsbor

Мне нравится 1а, мы всё равно теперь аббревиатуры добавляем в словарь

Best, Svetlana Alexeeva

26 июля 2015 г., в 21:22, Dmitry Granovsky [email protected] написал(а):

У нас до сих пор не принято никакого решения, что мы делаем со словами типа "1-й", "22-летний", "34-местный" и т.п. Сейчас они все UNKN, и их сравнительно немало. Есть не менее трёх альтернатив:

  1. Добавляем эти формы в словарь, в парадигмы к полным словам. Т.е. в парадигме слова "третий" появятся формы "3-й", "3-я", "3-ему" и др. Далее как с любыми другими формами. Когда-то давно мы почему-то решили так не делать. 1а. То же самое, но выносим все такие формы в отдельную лексему, потом между лексемами типа "2-й" и "второй" устанавливаем связь.
  2. В словарь ничего не добавляем. Делаем механизм связывания произвольного токена в корпусе с произвольной формой из словаря (или набором их). Вероятно, такой механизм потом пригодится для опечаток.

cc @victorbocharov @svbichineva

— Reply to this email directly or view it on GitHub.

svbichineva avatar Jul 27 '15 07:07 svbichineva

Вариант 1 засоряет парадигму, становится слишком много всего в несортированном порядке.

Вариант 1а не засоряет парадигму, находится в русле текущего подхода. "Мы всё равно аббревиатуры добавляем в словарь" -- не приписывая же в ту же самую парадигму, засоряя её, а через прописывания связи. Накладные расходы немного выше, однако намного более читаемо.

Вариант 2 невыгоден тем, что нужно делать новый механизм (трудозатраты), при этом нужно заранее оценить возможность того, что этот механизм может и не пригодиться для опечаток.

Если есть какие-то соображения из теории лингвистики, может и выбор неочевиден, а в текущем варианте самым очевидным кажется именно 1а.

akmetainfo avatar Jul 27 '15 14:07 akmetainfo

Первоначально мы хотели сделать 2. Тут 1а мне кажется вполне подходящим.

vbocharov avatar Aug 04 '15 21:08 vbocharov

Ок, спасибо

grandsbor avatar Aug 05 '15 08:08 grandsbor

#873

victorbocharov avatar Jun 22 '20 19:06 victorbocharov