opencorpora
opencorpora copied to clipboard
Слова типа "1-й"
У нас до сих пор не принято никакого решения, что мы делаем со словами типа "1-й", "22-летний", "34-местный" и т.п. Сейчас они все UNKN, и их сравнительно немало. Есть не менее трёх альтернатив:
- Добавляем эти формы в словарь, в парадигмы к полным словам. Т.е. в парадигме слова "третий" появятся формы "3-й", "3-я", "3-ему" и др. Далее как с любыми другими формами. Когда-то давно мы почему-то решили так не делать. 1а. То же самое, но выносим все такие формы в отдельную лексему, потом между лексемами типа "2-й" и "второй" устанавливаем связь.
- В словарь ничего не добавляем. Делаем механизм связывания произвольного токена в корпусе с произвольной формой из словаря (или набором их). Вероятно, такой механизм потом пригодится для опечаток.
cc @victorbocharov @svbichineva
Мне нравится 1а, мы всё равно теперь аббревиатуры добавляем в словарь
Best, Svetlana Alexeeva
26 июля 2015 г., в 21:22, Dmitry Granovsky [email protected] написал(а):
У нас до сих пор не принято никакого решения, что мы делаем со словами типа "1-й", "22-летний", "34-местный" и т.п. Сейчас они все UNKN, и их сравнительно немало. Есть не менее трёх альтернатив:
- Добавляем эти формы в словарь, в парадигмы к полным словам. Т.е. в парадигме слова "третий" появятся формы "3-й", "3-я", "3-ему" и др. Далее как с любыми другими формами. Когда-то давно мы почему-то решили так не делать. 1а. То же самое, но выносим все такие формы в отдельную лексему, потом между лексемами типа "2-й" и "второй" устанавливаем связь.
- В словарь ничего не добавляем. Делаем механизм связывания произвольного токена в корпусе с произвольной формой из словаря (или набором их). Вероятно, такой механизм потом пригодится для опечаток.
cc @victorbocharov @svbichineva
— Reply to this email directly or view it on GitHub.
Вариант 1 засоряет парадигму, становится слишком много всего в несортированном порядке.
Вариант 1а не засоряет парадигму, находится в русле текущего подхода. "Мы всё равно аббревиатуры добавляем в словарь" -- не приписывая же в ту же самую парадигму, засоряя её, а через прописывания связи. Накладные расходы немного выше, однако намного более читаемо.
Вариант 2 невыгоден тем, что нужно делать новый механизм (трудозатраты), при этом нужно заранее оценить возможность того, что этот механизм может и не пригодиться для опечаток.
Если есть какие-то соображения из теории лингвистики, может и выбор неочевиден, а в текущем варианте самым очевидным кажется именно 1а.
Первоначально мы хотели сделать 2. Тут 1а мне кажется вполне подходящим.
Ок, спасибо
#873