manolo_scraper issues

Results 12 manolo_scraper issues

Sort by recently updated

[WIP] Scapinhub Migration

- [ ] Use envs for database configuration. - [x] Use Delorean to handle timezones. We have to use PET http://delorean.readthedocs.io/en/latest/quickstart.html - [ ] Schedule spider in scrapinghub. This step...

matiskay

Agrega informacion meta a las spider.

Con el fin de rastrear los items scrapeados por una spider sugiro agregar la siguiente informacion a cada spider. - page_number - spider_name - crawled_at Por ahora esos campos serian...

matiskay

Add CodeClimate

Link: https://codeclimate.com

matiskay

Add Circle CI

Link: https://circleci.com/pricing/

matiskay

Crear un pipeline solo para guardar los datos usando PostgreSQL

Actualmente el proceso de guardar los datos esta junto al proceso de Limpieza de datos. Lo idea es separar el proceso de guardado de datos en un pipeline independiente. Agregando...

matiskay

Update packages

Este proyecto necesita un poco mas de amor. La ultima version es 1.1.0.

matiskay

upgrade scrapylib item processors

so we get rid of this warning when running tests: > /local/lib/python2.7/site-packages/scrapylib/processors/**init**.py:8: ScrapyDeprecationWarning: Module `scrapy.contrib.loader.processor` is deprecated, use `scrapy.loader.processors` instead > from scrapy.contrib.loader.processor import Compose, MapCompose, TakeFirst

aniversarioperu

enhancement

manolo_scraper
manolo_scraper copied to clipboard

Metadata

[WIP] Scapinhub Migration

Agrega informacion meta a las spider.

Add CodeClimate

Add Circle CI

Crear un pipeline solo para guardar los datos usando PostgreSQL

Update packages

upgrade scrapylib item processors

Create a Spider Template

Create a Captcha Solver for Ministerio de Relaciones Exteriores

Investigar Spiders Contracts para testar las Spiders.

← Metadata

Owner

Metadata

manolo_scraper manolo_scraper copied to clipboard

Metadata

← Metadata

Owner

Metadata

manolo_scraper
manolo_scraper copied to clipboard