tomita-parser Выделяемые из текста цепочки слов

Здравствуйте. Столкнулся с необходимостью рассмотреть 2 предложения разделенные знаком переноса строки как одну. Подскажите пожалуйста, есть ли способ это сделать? Пытался добавить в строку подобную конструкцию : (EOSent), но это не сработало. И если кто знает - можете поподробнее рассказать про этот терминал EOSent, принцип работы и использования?

Jun 10 '21 07:06 KotIva

EOSent нужен для того, чтобы правило срабатывало на конце предложения. Подразумевается, что после EOSent уже ничего не сработает, т.к. дальше токенов в предложении нет.

Приведите пример двух предложений, которые не склеились.

Jun 10 '21 20:06 victorbocharov

Пример исходного текста Тот же текст, только уже разобранный в файле PrettyOutput

Jun 11 '21 07:06 KotIva

Конец предложения после аббревиатур - это частотная проблема. Она решается добавлением словаря аббревиатур. См. https://github.com/yandex/tomita-parser/issues/46

Двойной перенос строки считается концом предложения. Так было задумано. Если это неудобно, то лучше сделать препроцессинг и убрать двойной перенос строки или даже лишние точки. Длинные предложения, которые получатся после удаления точек, на некоторых грамматиках могут увеличить время работы парсера.

Jun 17 '21 21:06 victorbocharov

Спасибо за ответ. А есть где-либо расширенная документация по Томите ну или не подскажите где можно найти более тонкие аспекты Томиты, чем те, которые описаны в официальной документации ?

Jun 18 '21 06:06 KotIva

Нет, тайной внутренней документации нет. Большинство типовых вопросов есть в тикетах. Остальное - в коде. Если не находите ответа на свой вопрос, то открывайте новый тикет.

Jun 18 '21 06:06 victorbocharov

Понял. Спасибо.

Jun 18 '21 10:06 KotIva

tomita-parser tomita-parser copied to clipboard

Выделяемые из текста цепочки слов

tomita-parser
tomita-parser copied to clipboard