opencorpora Категории несловарных слов

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | wc -l
37183

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | wc -l
24644

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+$' | wc -l
19214

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+\-[А-ЯЁа-яё]+$' | wc -l
1335

Категории:

ADJF Anum

^\d+-[еймхя]$ -му -ый -го -ми -ого -ую -ое -ом -ей -ой

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0-9]+\-[еймхя]' | wc -l
917

Наверное, тут возможны все падежные окончания и их части, которые есть в парадигме.

Даты

^[0123]?\d.[0123]\d.[12]\d\d\d$
^[0123]?\d-[0123]\d-[12]\d\d\d$
^[0123]?\d.[0123]\d.\d\d$
^[0123]?\d-[0123]\d-\d\d$

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][12][0-9][0-9][0-9]' | wc -l
181

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][0-9][0-9]' | wc -l
221

Время

^[012]\d:[012]\d:[012]\d$
^[012]\d:[012]\d$

Счёт (результат спортивного соревнования)

^\d$:\d+$

ADJF

^\d+-(кило|мега|гига|милли|нано)?(летний|бальный|дюймовый|метровый|процентный|песенный|битный|вековой|томный|титомный|часовой|минутный|секундный|страничный|сотенный|тысячный|миллионный|миллиардный|триллионный|ватный|мильный|этажный|значный|гранный|фунтовый|буквенный|градусный|точечный|литровый|пиксельный|месячный|годовой|годичный|цилиндровый|кратный|разрядный) + все падежные окончания

18-летие / 18-летье

^\d+-лет[ьи].+$

URL

^\w+://[\w\d]+[\w\d.-]+[\w\d]+ - со включённым Unicode, чтобы \w срабатывало на нелатинице
^www.[\w\d]+[\w\d.-]+[\w\d]+

e-mail

^[\w\d]+[\w\d-._+]+[\w\d]+@\w+[\w\d-.+]+.\w+$ - тут Unicode скорее вредит

ISBN

^\d+-\d+-\d+-[\dX]$
^(978|979)-\d+-\d+-\d+-[\dX]$

β-блокаторов / α-гликозидазы

^\p{Greek}-[А-Яёа-яё]+$

Jun 22 '20 18:06 victorbocharov

18-летие / 18-летье

По-моему, это словарные слова. Как "1-й".

Jun 22 '20 18:06 grandsbor

Добавил DATE и TIME.

Jul 07 '20 12:07 grandsbor

Предлагаю добавить в SYMB:

токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы,
иероглифы.

Jul 08 '20 20:07 grandsbor

Предлагаю добавить в SYMB:

* токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы,

* иероглифы.

так мы их не будем отличать от плюса, равно и прочих долларов. Иероглифами у нас там целые иностранные слова идут (это как LATN, только иероглифы).

Jul 09 '20 13:07 victorbocharov

Предлагай свой вариант :)

Jul 09 '20 13:07 grandsbor

Предлагаю на том же уровне, что POST (т.е. без родителя) завести

помету FRGN
его дочерние пометы:
- LATN (её, кажется, в списке граммем нет),
- HANI - иероглифы
- GREK
- ARAB
- HERB
- ... (можно и далее вдохновляться https://en.wikipedia.org/wiki/ISO_15924 , если потребуется)

Jul 10 '20 18:07 victorbocharov

Смесь греческого и латиницы у нас выглядит вот так:

      7 1986U2R/ζ
      2 hν
      1 Nρ 
      1 mEξ
      1 mEη
      1 ehν
      1 3Rhν

У меня пока нет идей, как с ними поступить.

Jul 10 '20 18:07 victorbocharov

Может, создать MIXD для смешения разных символов?

Jul 12 '20 12:07 svbichineva

Сделал HANI и GREK.

Jul 31 '20 19:07 grandsbor