manolo_scraper
manolo_scraper copied to clipboard
Scraper de registro de visitas online. Usa Scrapy.
- [ ] Use envs for database configuration. - [x] Use Delorean to handle timezones. We have to use PET http://delorean.readthedocs.io/en/latest/quickstart.html - [ ] Schedule spider in scrapinghub. This step...
Con el fin de rastrear los items scrapeados por una spider sugiro agregar la siguiente informacion a cada spider. - page_number - spider_name - crawled_at Por ahora esos campos serian...
Link: https://codeclimate.com
Link: https://circleci.com/pricing/
Actualmente el proceso de guardar los datos esta junto al proceso de Limpieza de datos. Lo idea es separar el proceso de guardado de datos en un pipeline independiente. Agregando...
Este proyecto necesita un poco mas de amor. La ultima version es 1.1.0.
so we get rid of this warning when running tests: > /local/lib/python2.7/site-packages/scrapylib/processors/**init**.py:8: ScrapyDeprecationWarning: Module `scrapy.contrib.loader.processor` is deprecated, use `scrapy.loader.processors` instead > from scrapy.contrib.loader.processor import Compose, MapCompose, TakeFirst
Reference: http://doc.scrapy.org/en/1.0/topics/commands.html#genspider
In order to crawl Ministerio de Relaciones Exteriores, we need to create a captcha solver using HOG and a Machine Learning algorithm like Support Vector Machines. We can grab ideas...
Ahora que se esta en proceso de refactorizar las spiders y agregar items loaders para la recoleccion de datos. Nos vemos con la necesidad de testar las spider de una...