Alexander Kukushkin

Results 23 comments of Alexander Kukushkin

@alexeykarnachev Не сохранились выгрузки?

> 2016-2017 - один токен Спасибо, надо будет поправить > 5-кратное - один токен Это не ошибка, так? "5-кратное" должен оставаться одним токеном?

Да, видимо, "M. Найдите" считается фамилией "Найдите" и именем "М". Попробуйте отключить правило для инициалов. Нужно передать [SentSegmenter](https://github.com/natasha/razdel/blob/master/razdel/segmenters/sentenize.py#L352) не дефолтный [RULES](https://github.com/natasha/razdel/blob/master/razdel/segmenters/sentenize.py#L333) а убрать initials_left

> > Но ругается на отсутствие модуля sentenize - не знаю какой выбрать, > чтобы увидеть все эти переменные. Нужно сделать import razdel.sentenize

> Вопрос в тему. Можно ли как-то добавлять свои правила для сентенизации (sentenize) текста прямо в своём коде? Мне нужно сентенизировать разделение текста на предложения по символу переноса строки '\n'....

Согласен, просто в тестовых датасетах особо эмоджи не было. Также нужно вообще поаккуратнее работать с пунктуацией. Например, на сколько я помню, "..." или "!?" склеятся, это нормально, а "yahoo!," нужно...

Seems like there is no need for special implementations for computing intersection cardinality ``` cardinality(A | B) = cardinality(A) + cardinality(B) - cardinality(A & B) -> cardinality(A & B) =...

> ... cannot compute expressions like cardinality(A ∪ B) ... Wait, then what `.merge` is for? I thought is it for computing `cardinality(A ∪ B)`

Knowing cardinality of sets union you can find cardinality of sets intersection. [There is a formula in math](https://www.brainkart.com/article/Addition-Theorem-of-Probability_35116/): ``` cardinality(A ∩ B) = cardinality(A) + cardinality(B) - cardinality(A ∪ B)...

> And what happens when each estimate is 2% off in the same direction? The total error is then approximately 6% which is 3 times the error you normally get...