Alexander Kukushkin

Results 23 comments of Alexander Kukushkin

There is no public API for that. One may use internal `normalize` https://github.com/natasha/natasha/blob/master/natasha/norm.py#L126 and `syntax_normalize` https://github.com/natasha/natasha/blob/master/natasha/norm.py#L119. Please read the code to learn how to prepare `vocab` and `tokens` arguments.

Перед применением syntax_parser нужно сегментировать документ doc.segment(segmenter), подробнее в https://github.com/natasha/natasha#usage

Может быть вам подойдёт http://dateparser.readthedocs.io/en/latest/ ?

Какие не вытягивает?

Примерно в марте планируется обновление правил Наташи в связи с переездом на новый парсер https://github.com/natasha/yargy/pull/48 . Вы можете составить список примеров строк, которые должны разбираться, как это сделано, например в...

Да, живая. Нужно тестовые данные. Не получается решать задачу "улучшить извлечение объектов даты и времени". Нужны реальные тексты с датами, временем, которые не парсятся.

@makseq Could you please give your thoughts?

Спасибо за ссылку. Вы уже добавили датасет в список этим тикетом. Чтобы он появился в https://github.com/natasha/corus#reference, нужно добавить функцию загрузчик. Если датасет понадобиться в проекте Natasha, добавим. Иначи ждем пулл...

Спасибо! Как планируете использовать? Какую задачу решаете?

Спасибо! Несколько хороших практик по формату данных: - Сериализовать не словарь, а json lines https://jsonlines.org/. В памяти нужно хранить не все данные, а одну строчку - В json.dump ставить ensure_ascii=False....