corus icon indicating copy to clipboard operation
corus copied to clipboard

Yandex.Market smartphone reviews

Open kkospit opened this issue 3 years ago • 4 comments

Здравствуйте! Посоветовали скинуть Вам мою сборку отзывов на смартфоны с яндекс.маркета. Небольшой json-файл, содержит около 50к отзывов на разные смартфоны. Структура {"model_1": [ {Рейтинг: "", "Достоинства": "", "Недостатки": "", "Комментарий": ""}, ... ], "model_2: {}" }. Кое-где есть только ключ "Комментарий". Ссылка: https://disk.yandex.ru/d/8zH4z0DHlUIZIg

kkospit avatar Mar 08 '21 17:03 kkospit

Спасибо! Как планируете использовать? Какую задачу решаете?

kuk avatar Mar 09 '21 09:03 kuk

Спасибо! Как планируете использовать? Какую задачу решаете?

Да, собственно, пока никакую... Изучал инструменты для парсинга после ознакомления с NLP. Хотел собрать датасет для генерации текста и/или определения оценки по отзыву. Пока знаний мало. Но вдруг эта сборка кому-нибудь ещё пригодится.

kkospit avatar Mar 09 '21 13:03 kkospit

Спасибо! Несколько хороших практик по формату данных:

  • Сериализовать не словарь, а json lines https://jsonlines.org/. В памяти нужно хранить не все данные, а одну строчку
  • В json.dump ставить ensure_ascii=False. Русские буквы не будут кодироваться, удобно смотреть глазами
  • Сжимать файл gzip, зачем гонять по сети лишние байты

kuk avatar Mar 10 '21 07:03 kuk

Спасибо за советы! Если что, сделал всё так(кажется) - https://disk.yandex.ru/d/cWu1YDJXwkSt6Q.

kkospit avatar Mar 11 '21 16:03 kkospit