datatasks icon indicating copy to clipboard operation
datatasks copied to clipboard

Парсер по автоматической выгрузке данных из data.mos.ru и загрузке в хаб открытых данных

Open ivbeg opened this issue 9 years ago • 4 comments

Цель

Гарантировать сохранение и возможность удобного повторного использования открытых данных публикуемых на портале data.mos.ru

Задача

  • перенести все имеющиеся данные и их описание с портала data.mos.ru на портал hubofdata.ru
  • предусмотреть возможность обновления без перегрузки всех данных

Требования

  • открытый исходный код в Github под свободной лицензией
  • межплатформенный код (возможность запуска на Linux/Windows)
  • предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
  • переносить все данные в CKAN или на отдельный хостинг (например, в Github)
  • необходимо создавать профили организаций в CKAN аналогично профилям организаций на data.mos.ru

Пожелания

  • реализация в виде программы командной строки или веб-приложения
  • возможность запуска на MacOSX
  • использовать скриптовые языки такие как Python, Perl, R и другие.

Оценки трудоёмкости

Задача должна занять не более 1 недели.

Вспомогательные материалы:

  • документация API CKAN - http://docs.ckan.org/en/latest/api/index.html
  • документация Data.gov.ru - http://data.gov.ru/pravila-i-rekomendacii

ivbeg avatar Apr 24 '15 07:04 ivbeg

  1. Ссылки на документацию некорректны - скорее имеет смысл дать следующие:
    • http://api.data.mos.ru/Docs
    • http://www.odata.org/
  2. Хотя и заявлена поддержка OData, не поддерживается фильтрация - только полная выгрузка (хоть и с поддержкой pagination). Это нужно учитывать.

pyhedgehog avatar Aug 31 '15 13:08 pyhedgehog

Часть работы была проделана http://gis-lab.info/qa/data-mos.html исходники https://github.com/simgislab/datamosru

Sadless74 avatar Sep 12 '15 21:09 Sadless74

@pyhedgehog спасибо за поправки и ссылки

ivbeg avatar Sep 23 '15 08:09 ivbeg

@Sadless74 очень хорошо, надеюсь кто-то реализует эту задачу полностью

ivbeg avatar Sep 23 '15 08:09 ivbeg