opencorpora icon indicating copy to clipboard operation
opencorpora copied to clipboard

Категории несловарных слов

Open victorbocharov opened this issue 4 years ago • 9 comments

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | wc -l
37183
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | wc -l
24644
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+$' | wc -l
19214
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+\-[А-ЯЁа-яё]+$' | wc -l
1335

Категории:

  1. ADJF Anum
  • ^\d+-[еймхя]$ -му -ый -го -ми -ого -ую -ое -ом -ей -ой
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0-9]+\-[еймхя]' | wc -l
917

Наверное, тут возможны все падежные окончания и их части, которые есть в парадигме.

  1. Даты
  • ^[0123]?\d.[0123]\d.[12]\d\d\d$
  • ^[0123]?\d-[0123]\d-[12]\d\d\d$
  • ^[0123]?\d.[0123]\d.\d\d$
  • ^[0123]?\d-[0123]\d-\d\d$
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][12][0-9][0-9][0-9]' | wc -l
181
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][0-9][0-9]' | wc -l
221
  1. Время
  • ^[012]\d:[012]\d:[012]\d$
  • ^[012]\d:[012]\d$
  1. Счёт (результат спортивного соревнования)
  • ^\d$:\d+$
  1. ADJF
  • ^\d+-(кило|мега|гига|милли|нано)?(летний|бальный|дюймовый|метровый|процентный|песенный|битный|вековой|томный|титомный|часовой|минутный|секундный|страничный|сотенный|тысячный|миллионный|миллиардный|триллионный|ватный|мильный|этажный|значный|гранный|фунтовый|буквенный|градусный|точечный|литровый|пиксельный|месячный|годовой|годичный|цилиндровый|кратный|разрядный) + все падежные окончания
  1. 18-летие / 18-летье
  • ^\d+-лет[ьи].+$
  1. URL
  • ^\w+://[\w\d]+[\w\d.-]+[\w\d]+ - со включённым Unicode, чтобы \w срабатывало на нелатинице
  • ^www.[\w\d]+[\w\d.-]+[\w\d]+
  1. e-mail
  • ^[\w\d]+[\w\d-._+]+[\w\d]+@\w+[\w\d-.+]+.\w+$ - тут Unicode скорее вредит
  1. ISBN
  • ^\d+-\d+-\d+-[\dX]$
  • ^(978|979)-\d+-\d+-\d+-[\dX]$
  1. β-блокаторов / α-гликозидазы
  • ^\p{Greek}-[А-Яёа-яё]+$

victorbocharov avatar Jun 22 '20 18:06 victorbocharov

18-летие / 18-летье

По-моему, это словарные слова. Как "1-й".

grandsbor avatar Jun 22 '20 18:06 grandsbor

Добавил DATE и TIME.

grandsbor avatar Jul 07 '20 12:07 grandsbor

Предлагаю добавить в SYMB:

  • токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы,
  • иероглифы.

grandsbor avatar Jul 08 '20 20:07 grandsbor

Предлагаю добавить в SYMB:

* токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы,

* иероглифы.

так мы их не будем отличать от плюса, равно и прочих долларов. Иероглифами у нас там целые иностранные слова идут (это как LATN, только иероглифы).

victorbocharov avatar Jul 09 '20 13:07 victorbocharov

Предлагай свой вариант :)

grandsbor avatar Jul 09 '20 13:07 grandsbor

Предлагаю на том же уровне, что POST (т.е. без родителя) завести

  • помету FRGN
  • его дочерние пометы:
    • LATN (её, кажется, в списке граммем нет),
    • HANI - иероглифы
    • GREK
    • ARAB
    • HERB
    • ... (можно и далее вдохновляться https://en.wikipedia.org/wiki/ISO_15924 , если потребуется)

victorbocharov avatar Jul 10 '20 18:07 victorbocharov

Смесь греческого и латиницы у нас выглядит вот так:

      7 1986U2R/ζ
      2 hν
      1 Nρ 
      1 mEξ
      1 mEη
      1 ehν
      1 3Rhν

У меня пока нет идей, как с ними поступить.

victorbocharov avatar Jul 10 '20 18:07 victorbocharov

Может, создать MIXD для смешения разных символов?

svbichineva avatar Jul 12 '20 12:07 svbichineva

Сделал HANI и GREK.

grandsbor avatar Jul 31 '20 19:07 grandsbor