Alexander Kukushkin comments

Results 33 comments of


                                            Alexander Kukushkin

Normalization of user-provided spans

There is no public API for that. One may use internal `normalize` https://github.com/natasha/natasha/blob/master/natasha/norm.py#L126 and `syntax_normalize` https://github.com/natasha/natasha/blob/master/natasha/norm.py#L119. Please read the code to learn how to prepare `vocab` and `tokens` arguments.

Не парсится предложение из примера

Перед применением syntax_parser нужно сегментировать документ doc.segment(segmenter), подробнее в https://github.com/natasha/natasha#usage

Разбор объектов времени

Может быть вам подойдёт http://dateparser.readthedocs.io/en/latest/ ?

Разбор объектов времени

Какие не вытягивает?

Разбор объектов времени

Примерно в марте планируется обновление правил Наташи в связи с переездом на новый парсер https://github.com/natasha/yargy/pull/48 . Вы можете составить список примеров строк, которые должны разбираться, как это сделано, например в...

Разбор объектов времени

Да, живая. Нужно тестовые данные. Не получается решать задачу "улучшить извлечение объектов даты и времени". Нужны реальные тексты с датами, временем, которые не парсятся.

Jupyter widget

@makseq Could you please give your thoughts?

RuDReC

Спасибо за ссылку. Вы уже добавили датасет в список этим тикетом. Чтобы он появился в https://github.com/natasha/corus#reference, нужно добавить функцию загрузчик. Если датасет понадобиться в проекте Natasha, добавим. Иначи ждем пулл...

Yandex.Market smartphone reviews

Спасибо! Как планируете использовать? Какую задачу решаете?

Yandex.Market smartphone reviews

Спасибо! Несколько хороших практик по формату данных: - Сериализовать не словарь, а json lines https://jsonlines.org/. В памяти нужно хранить не все данные, а одну строчку - В json.dump ставить ensure_ascii=False....