opencorpora
opencorpora copied to clipboard
Найденные ошибки в токенизации
by @kmike https://docs.google.com/spreadsheet/ccc?key=0As9XSeRgdNihdHYxaUVYNkl5NTA3dE9CaThtaENYdlE
(хочу заметить, что пока не закрыт тикет #49, править токенизацию не выйдет)
Да, я тоже нашёл баги в токенизации, когда смотрел на именованные сущности.
Предложение 60062 нужно разделить на 2 после ")."
склеить предложения 47843 и 47844
http://opencorpora.org/books.php?book_id=1727&full#sen48154 склеить "мультимедиа", "-" и "книги"
Разделить предложения:
- http://opencorpora.org/sentence.php?id=57560
- http://opencorpora.org/sentence.php?id=58087
Это предложение можно разбить http://opencorpora.org/sentence.php?id=28040
Это предложение можно разбить на два: http://opencorpora.org/pools.php?act=samples&pool_id=2030&ext&filter=comments http://opencorpora.org/books.php?book_id=2051&full#sen49703
@grandsbor Дима, а это нормально, что клик в многоточия (показать контекст) вот здесь - http://opencorpora.org/pools.php?act=samples&pool_id=2030&ext&filter=comments - ничего не дает? Хром последний
На последнем FF многоточия раскрываются без проблем (и контекст слева и контекст справа). Browser-specific bug?
У меня в Яузере тоже раскрывается нормально. Может, у тебя проблема с сетью была?
Стоп, а права нужны какие-то на то, чтобы контекст смотреть? Там, вроде, в шаблоне стоит проверка permission_check_morph, и в нее завернут js
Да, это правда, нужны права модератора :)
Да, с с тестового своего аккаунта не могу раскрыть контекст в том же FF -> всё работает как и задумывалось, без багов. Может потрём эту ветку обсуждения или хотя бы в отдельную вынесем, чтобы не захламлять? Я вот например не понимаю, зачем нужно было навешивать такую строгую проверку -- с учётом, что страница видна всем и рядом есть линк на контекст. Может это уже не так актуально и можно подумать, чтобы убрать?
Предложение 83415 можно разбить на два. В правилах токенизации ничего не сказано о том, как разбивать список внутри цитирования, однако все формальные признаки предложения (с большой буквы, знак препинания) есть.
Предложение 80274 можно разбить на два.
По следам топика Случайный перевод строки посередине предложения?:
- Объединить предложения 58144 и 58145
- Объединить предложения 58471 и 58472
В этом тексте приводится список книг (пара автор - наименование книги). Ни в сохранённой копии, ни на сайте список не разделён переводом строки, да и в корпусе больше нигде не видел, чтобы автор попадал в одно предложение, а наименование - в другое. Предлагаю поправить, там около 30 книг, поэтому все предложения выписывать не буду - много их.
Предложение 37580 нужно разделить на два.
Порядок предложений в тексте 1865 поменялся. Нужно чтобы предложения шли в таком порядке: 47814 47815 47827 47828 А то сейчас ерунда получается: 47827 и 47828 -- это явно цельное предложение, а когда между его частями вклинивается заголовок (47814) -- сразу видно, что ошибка.
Предложения 25444 и 25445 нужно объединить в одно.
Предложение 12563 можно разделить на два.
Предложение 54711 нужно разбить на два по переводу строки, который сделал автор.
Либо же обединить 54710 и 54711, если не обращать внимания на авторские переводы строки -- но как я понимаю, есть неписанное правило (в инструкцию точно не вписано) что авторский перевод строки является гарантированным сигналом к простановке границы предложения)
А как сейчас получается не единообразно: один раз поставили границу предложения и тут же через строку не поставили.
Предложение 28285 нужно разбить на два.
Ммммм... несколько неочевидно, но предложения 53740 и 53741 вероятно правильнее собрать в одно. В правилах деления на предложения есть идентичный пример, когда содержимое кавычек является "одним членом с точки зрения внешнего предложения" и даже образец аналогичный -- в кавычках наименование произведения: "Роман “Опасные связи. Или письма...."
Нужно объединить предложения 80481 и 80482.
Предложение 81348 ещё не до конца разбито, можно ещё раз разделить.
Нужно разбить http://opencorpora.org/sentence.php?id=56964
Разбить: http://opencorpora.org/sentence.php?id=57463
Предложение 94621 логично разбить на два. Автор не стал ставить точку в конце предложения - я так понимаю, что разбить всё же нужно (не восстанавливая пропущенный знак препинания), верно?