opencorpora
opencorpora copied to clipboard
Новые типы пулов по лемме
Создать новые типы заданий для слов, у которых все граммемы совпадают, а леммы разные. Например:
- парке (парк или парок)
- мере (мера или меря)
- цветов (цветок или цвет)
- сам/самый во многих формах
А также прилагательные на -ый/-ой в некоторых формах.
Наверное, имеет смысл для начала создать место, где соберутся все такие слова, поскольку есть вероятность, что для некоторых надо будет править словарь.
Вот верхняя часть списка токенов, которые никогда не были ни в каких пулах:
+------------------------------+-----+
| tf_text | cnt |
+------------------------------+-----+
| статей | 95 |
| сведений | 64 |
| найма | 48 |
| цветов | 34 |
| сведениям | 24 |
| Леха | 23 |
| лагере | 21 |
| записать | 18 |
| МИД | 17 |
| судну | 15 |
| меньшую | 14 |
| Отмечу | 13 |
| записал | 13 |
| ролях | 11 |
| признаться | 11 |
| судне | 10 |
| щас | 10 |
| замечу | 10 |
| пожал | 9 |
| меньшая | 8 |
| Алёша | 8 |
| обоим | 8 |
| записали | 8 |
| Браво | 8 |
| господствующей | 7 |
| сродни | 7 |
| Георгиевич | 7 |
| записала | 7 |
| подходящее | 7 |
| отеле | 6 |
| солей | 6 |
| полмиллиарда | 6 |
| стоящей | 6 |
| Бена | 6 |
| заплачу | 6 |
| умершей | 6 |
| далеки | 5 |
| Михайлович | 5 |
| пожать | 5 |
| входящей | 5 |
| подходящей | 5 |
| капитале | 5 |
| издалека | 5 |
| языковыми | 5 |
| стула | 5 |
| стуле | 5 |
| обоими | 5 |
| воскресеньям | 5 |
По-моему, про некоторые случаи отсюда даже были тикеты.
Спасибо. На всякий случай, ещё раз напишу, что имелись в виду все токены, а не только те, которые никогда не были в пулах. Парке и формы сам, самый уже были в пулах, теперь их осталось разобрать только по лемме.
А два разбора у токена щас из списка выше -- это какой-то баг при переразборе из словаря.
Буду складывать сюда тикеты с наборами омонимичных форм, разбитых по части речи (в основном). Можно будет их закрывать по мере проверки.
- имена: #853
- существительные: #854
ещё будут:
- прилагательные (полные)
- прилагательные (краткие)
- причастия (полные)
- причастия (краткие)
- личные формы глагола
- деепричастия
- отчества
- всё остальное