opencorpora
opencorpora copied to clipboard
Категории несловарных слов
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | wc -l
37183
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | wc -l
24644
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+$' | wc -l
19214
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+\-[А-ЯЁа-яё]+$' | wc -l
1335
Категории:
- ADJF Anum
- ^\d+-[еймхя]$ -му -ый -го -ми -ого -ую -ое -ом -ей -ой
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0-9]+\-[еймхя]' | wc -l
917
Наверное, тут возможны все падежные окончания и их части, которые есть в парадигме.
- Даты
- ^[0123]?\d.[0123]\d.[12]\d\d\d$
- ^[0123]?\d-[0123]\d-[12]\d\d\d$
- ^[0123]?\d.[0123]\d.\d\d$
- ^[0123]?\d-[0123]\d-\d\d$
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][12][0-9][0-9][0-9]' | wc -l
181
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][0-9][0-9]' | wc -l
221
- Время
- ^[012]\d:[012]\d:[012]\d$
- ^[012]\d:[012]\d$
- Счёт (результат спортивного соревнования)
- ^\d$:\d+$
- ADJF
- ^\d+-(кило|мега|гига|милли|нано)?(летний|бальный|дюймовый|метровый|процентный|песенный|битный|вековой|томный|титомный|часовой|минутный|секундный|страничный|сотенный|тысячный|миллионный|миллиардный|триллионный|ватный|мильный|этажный|значный|гранный|фунтовый|буквенный|градусный|точечный|литровый|пиксельный|месячный|годовой|годичный|цилиндровый|кратный|разрядный) + все падежные окончания
- 18-летие / 18-летье
- ^\d+-лет[ьи].+$
- URL
- ^\w+://[\w\d]+[\w\d.-]+[\w\d]+ - со включённым Unicode, чтобы \w срабатывало на нелатинице
- ^www.[\w\d]+[\w\d.-]+[\w\d]+
- ^[\w\d]+[\w\d-._+]+[\w\d]+@\w+[\w\d-.+]+.\w+$ - тут Unicode скорее вредит
- ISBN
- ^\d+-\d+-\d+-[\dX]$
- ^(978|979)-\d+-\d+-\d+-[\dX]$
- β-блокаторов / α-гликозидазы
- ^\p{Greek}-[А-Яёа-яё]+$
Предлагаю добавить в SYMB
:
- токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы,
- иероглифы.
Предлагаю добавить в
SYMB
:* токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы, * иероглифы.
так мы их не будем отличать от плюса, равно и прочих долларов. Иероглифами у нас там целые иностранные слова идут (это как LATN, только иероглифы).
Предлагай свой вариант :)
Предлагаю на том же уровне, что POST (т.е. без родителя) завести
- помету FRGN
- его дочерние пометы:
- LATN (её, кажется, в списке граммем нет),
- HANI - иероглифы
- GREK
- ARAB
- HERB
- ... (можно и далее вдохновляться https://en.wikipedia.org/wiki/ISO_15924 , если потребуется)
Смесь греческого и латиницы у нас выглядит вот так:
7 1986U2R/ζ
2 hν
1 Nρ
1 mEξ
1 mEη
1 ehν
1 3Rhν
У меня пока нет идей, как с ними поступить.
Может, создать MIXD для смешения разных символов?