opencorpora icon indicating copy to clipboard operation
opencorpora copied to clipboard

Найденные ошибки в токенизации

Open grandsbor opened this issue 11 years ago • 58 comments
trafficstars

by @kmike https://docs.google.com/spreadsheet/ccc?key=0As9XSeRgdNihdHYxaUVYNkl5NTA3dE9CaThtaENYdlE

grandsbor avatar Sep 27 '14 18:09 grandsbor

(хочу заметить, что пока не закрыт тикет #49, править токенизацию не выйдет)

grandsbor avatar Sep 27 '14 18:09 grandsbor

Да, я тоже нашёл баги в токенизации, когда смотрел на именованные сущности.

victorbocharov avatar Oct 05 '14 12:10 victorbocharov

Предложение 60062 нужно разделить на 2 после ")."

svbichineva avatar Oct 19 '14 11:10 svbichineva

склеить предложения 47843 и 47844

svbichineva avatar Oct 19 '14 19:10 svbichineva

http://opencorpora.org/books.php?book_id=1727&full#sen48154 склеить "мультимедиа", "-" и "книги"

svbichineva avatar Nov 24 '14 14:11 svbichineva

Разделить предложения:

  • http://opencorpora.org/sentence.php?id=57560
  • http://opencorpora.org/sentence.php?id=58087

grandsbor avatar Feb 12 '15 21:02 grandsbor

Это предложение можно разбить http://opencorpora.org/sentence.php?id=28040

grandsbor avatar Mar 03 '15 15:03 grandsbor

Это предложение можно разбить на два: http://opencorpora.org/pools.php?act=samples&pool_id=2030&ext&filter=comments http://opencorpora.org/books.php?book_id=2051&full#sen49703

akmetainfo avatar Mar 12 '15 21:03 akmetainfo

@grandsbor Дима, а это нормально, что клик в многоточия (показать контекст) вот здесь - http://opencorpora.org/pools.php?act=samples&pool_id=2030&ext&filter=comments - ничего не дает? Хром последний

madfriend avatar Mar 12 '15 23:03 madfriend

На последнем FF многоточия раскрываются без проблем (и контекст слева и контекст справа). Browser-specific bug?

akmetainfo avatar Mar 13 '15 06:03 akmetainfo

У меня в Яузере тоже раскрывается нормально. Может, у тебя проблема с сетью была?

grandsbor avatar Mar 13 '15 19:03 grandsbor

Стоп, а права нужны какие-то на то, чтобы контекст смотреть? Там, вроде, в шаблоне стоит проверка permission_check_morph, и в нее завернут js

madfriend avatar Mar 13 '15 20:03 madfriend

Да, это правда, нужны права модератора :)

grandsbor avatar Mar 13 '15 21:03 grandsbor

Да, с с тестового своего аккаунта не могу раскрыть контекст в том же FF -> всё работает как и задумывалось, без багов. Может потрём эту ветку обсуждения или хотя бы в отдельную вынесем, чтобы не захламлять? Я вот например не понимаю, зачем нужно было навешивать такую строгую проверку -- с учётом, что страница видна всем и рядом есть линк на контекст. Может это уже не так актуально и можно подумать, чтобы убрать?

akmetainfo avatar Mar 14 '15 18:03 akmetainfo

Предложение 83415 можно разбить на два. В правилах токенизации ничего не сказано о том, как разбивать список внутри цитирования, однако все формальные признаки предложения (с большой буквы, знак препинания) есть.

akmetainfo avatar Apr 05 '15 09:04 akmetainfo

Предложение 80274 можно разбить на два.

akmetainfo avatar Apr 06 '15 10:04 akmetainfo

В этом тексте приводится список книг (пара автор - наименование книги). Ни в сохранённой копии, ни на сайте список не разделён переводом строки, да и в корпусе больше нигде не видел, чтобы автор попадал в одно предложение, а наименование - в другое. Предлагаю поправить, там около 30 книг, поэтому все предложения выписывать не буду - много их.

akmetainfo avatar Apr 09 '15 17:04 akmetainfo

Предложение 37580 нужно разделить на два.

akmetainfo avatar Apr 12 '15 15:04 akmetainfo

Порядок предложений в тексте 1865 поменялся. Нужно чтобы предложения шли в таком порядке: 47814 47815 47827 47828 А то сейчас ерунда получается: 47827 и 47828 -- это явно цельное предложение, а когда между его частями вклинивается заголовок (47814) -- сразу видно, что ошибка.

akmetainfo avatar Apr 25 '15 09:04 akmetainfo

Предложения 25444 и 25445 нужно объединить в одно.

akmetainfo avatar Apr 25 '15 09:04 akmetainfo

Предложение 12563 можно разделить на два.

akmetainfo avatar Apr 28 '15 20:04 akmetainfo

Предложение 54711 нужно разбить на два по переводу строки, который сделал автор.

Либо же обединить 54710 и 54711, если не обращать внимания на авторские переводы строки -- но как я понимаю, есть неписанное правилоинструкцию точно не вписано) что авторский перевод строки является гарантированным сигналом к простановке границы предложения)

А как сейчас получается не единообразно: один раз поставили границу предложения и тут же через строку не поставили.

akmetainfo avatar Apr 29 '15 21:04 akmetainfo

Предложение 28285 нужно разбить на два.

akmetainfo avatar May 02 '15 11:05 akmetainfo

Ммммм... несколько неочевидно, но предложения 53740 и 53741 вероятно правильнее собрать в одно. В правилах деления на предложения есть идентичный пример, когда содержимое кавычек является "одним членом с точки зрения внешнего предложения" и даже образец аналогичный -- в кавычках наименование произведения: "Роман “Опасные связи. Или письма...."

akmetainfo avatar May 02 '15 16:05 akmetainfo

Нужно объединить предложения 80481 и 80482.

akmetainfo avatar May 22 '15 12:05 akmetainfo

Предложение 81348 ещё не до конца разбито, можно ещё раз разделить.

akmetainfo avatar May 22 '15 17:05 akmetainfo

Нужно разбить http://opencorpora.org/sentence.php?id=56964

grandsbor avatar Jul 01 '15 14:07 grandsbor

Разбить: http://opencorpora.org/sentence.php?id=57463

grandsbor avatar Jul 01 '15 21:07 grandsbor

Предложение 94621 логично разбить на два. Автор не стал ставить точку в конце предложения - я так понимаю, что разбить всё же нужно (не восстанавливая пропущенный знак препинания), верно?

akmetainfo avatar Jul 19 '15 12:07 akmetainfo