corus
corus copied to clipboard
Yandex.Market smartphone reviews
Здравствуйте! Посоветовали скинуть Вам мою сборку отзывов на смартфоны с яндекс.маркета. Небольшой json-файл, содержит около 50к отзывов на разные смартфоны. Структура {"model_1": [ {Рейтинг: "", "Достоинства": "", "Недостатки": "", "Комментарий": ""}, ... ], "model_2: {}" }. Кое-где есть только ключ "Комментарий". Ссылка: https://disk.yandex.ru/d/8zH4z0DHlUIZIg
Спасибо! Как планируете использовать? Какую задачу решаете?
Спасибо! Как планируете использовать? Какую задачу решаете?
Да, собственно, пока никакую... Изучал инструменты для парсинга после ознакомления с NLP. Хотел собрать датасет для генерации текста и/или определения оценки по отзыву. Пока знаний мало. Но вдруг эта сборка кому-нибудь ещё пригодится.
Спасибо! Несколько хороших практик по формату данных:
- Сериализовать не словарь, а json lines https://jsonlines.org/. В памяти нужно хранить не все данные, а одну строчку
- В json.dump ставить ensure_ascii=False. Русские буквы не будут кодироваться, удобно смотреть глазами
- Сжимать файл gzip, зачем гонять по сети лишние байты
Спасибо за советы! Если что, сделал всё так(кажется) - https://disk.yandex.ru/d/cWu1YDJXwkSt6Q.