razdel icon indicating copy to clipboard operation
razdel copied to clipboard

Rule-based token, sentence segmentation for Russian language

Results 5 razdel issues
Sort by recently updated
recently updated
newest added

Здравствуйте. Токенизатор правильно разбивает тексты, где содержатся названия городов: `Ростов-на-Дону Санкт-Петербург` Однако с диапазонами значений он поступает аналогично: `2016-2017` - один токен `5-кратное` - один токен `10ти-кратное` - разбивается на...

Тест-кейс: ```python from razdel import tokenize print([_.text for _ in tokenize(`:-)`)]) # [`:`, `-`, `)`] ``` * В [регулярке `ATOM`](https://github.com/natasha/razdel/blob/master/razdel/segmenters/tokenize.py#L46) каждый символ пунктуации рассматривается как отдельный атом, то есть слияние...

Следующие пары предложений расцениваются как одно: Точка K принадлежит отрезку MN длиной 32 см и делит его в отношении 3:5, считая от точки M. Найдите KM. Точка К принадлежит отрезку...

text = "1. Текст юридической нормы согласно постановлению Правительства РФ от 25.05.2020 №3543 \"О размещении информации и т.д. Общие положения\" (зарегистрировано Министервом юстиции РФ. Регистрационный номер 3333) выделяются М.М. Мишустиным...

Привет, есть предложение считать все символы emoji за отдельные токены. Сейчас библиотека склеивает их с нормальными словами: Например, для такого текста: ``` ✅Сдается комната. стиралка,wifi... Сдается без комиссии.Соседи семья без...