datatasks
datatasks copied to clipboard
Парсер по автоматической выгрузке данных из data.mos.ru и загрузке в хаб открытых данных
Цель
Гарантировать сохранение и возможность удобного повторного использования открытых данных публикуемых на портале data.mos.ru
Задача
- перенести все имеющиеся данные и их описание с портала data.mos.ru на портал hubofdata.ru
- предусмотреть возможность обновления без перегрузки всех данных
Требования
- открытый исходный код в Github под свободной лицензией
- межплатформенный код (возможность запуска на Linux/Windows)
- предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
- переносить все данные в CKAN или на отдельный хостинг (например, в Github)
- необходимо создавать профили организаций в CKAN аналогично профилям организаций на data.mos.ru
Пожелания
- реализация в виде программы командной строки или веб-приложения
- возможность запуска на MacOSX
- использовать скриптовые языки такие как Python, Perl, R и другие.
Оценки трудоёмкости
Задача должна занять не более 1 недели.
Вспомогательные материалы:
- документация API CKAN - http://docs.ckan.org/en/latest/api/index.html
- документация Data.gov.ru - http://data.gov.ru/pravila-i-rekomendacii
- Ссылки на документацию некорректны - скорее имеет смысл дать следующие:
- http://api.data.mos.ru/Docs
- http://www.odata.org/
- Хотя и заявлена поддержка OData, не поддерживается фильтрация - только полная выгрузка (хоть и с поддержкой pagination). Это нужно учитывать.
Часть работы была проделана http://gis-lab.info/qa/data-mos.html исходники https://github.com/simgislab/datamosru
@pyhedgehog спасибо за поправки и ссылки
@Sadless74 очень хорошо, надеюсь кто-то реализует эту задачу полностью