tomita-parser
tomita-parser copied to clipboard
Выделяемые из текста цепочки слов
Здравствуйте. Столкнулся с необходимостью рассмотреть 2 предложения разделенные знаком переноса строки как одну. Подскажите пожалуйста, есть ли способ это сделать? Пытался добавить в строку подобную конструкцию : (EOSent), но это не сработало. И если кто знает - можете поподробнее рассказать про этот терминал EOSent, принцип работы и использования?
EOSent нужен для того, чтобы правило срабатывало на конце предложения. Подразумевается, что после EOSent уже ничего не сработает, т.к. дальше токенов в предложении нет.
Приведите пример двух предложений, которые не склеились.
Конец предложения после аббревиатур - это частотная проблема. Она решается добавлением словаря аббревиатур. См. https://github.com/yandex/tomita-parser/issues/46
Двойной перенос строки считается концом предложения. Так было задумано. Если это неудобно, то лучше сделать препроцессинг и убрать двойной перенос строки или даже лишние точки. Длинные предложения, которые получатся после удаления точек, на некоторых грамматиках могут увеличить время работы парсера.
Спасибо за ответ. А есть где-либо расширенная документация по Томите ну или не подскажите где можно найти более тонкие аспекты Томиты, чем те, которые описаны в официальной документации ?
Нет, тайной внутренней документации нет. Большинство типовых вопросов есть в тикетах. Остальное - в коде. Если не находите ответа на свой вопрос, то открывайте новый тикет.
Понял. Спасибо.