manolo_scraper icon indicating copy to clipboard operation
manolo_scraper copied to clipboard

Scraper de registro de visitas online. Usa Scrapy.

Results 12 manolo_scraper issues
Sort by recently updated
recently updated
newest added

- [ ] Use envs for database configuration. - [x] Use Delorean to handle timezones. We have to use PET http://delorean.readthedocs.io/en/latest/quickstart.html - [ ] Schedule spider in scrapinghub. This step...

Con el fin de rastrear los items scrapeados por una spider sugiro agregar la siguiente informacion a cada spider. - page_number - spider_name - crawled_at Por ahora esos campos serian...

Link: https://codeclimate.com

Link: https://circleci.com/pricing/

Actualmente el proceso de guardar los datos esta junto al proceso de Limpieza de datos. Lo idea es separar el proceso de guardado de datos en un pipeline independiente. Agregando...

Este proyecto necesita un poco mas de amor. La ultima version es 1.1.0.

so we get rid of this warning when running tests: > /local/lib/python2.7/site-packages/scrapylib/processors/**init**.py:8: ScrapyDeprecationWarning: Module `scrapy.contrib.loader.processor` is deprecated, use `scrapy.loader.processors` instead > from scrapy.contrib.loader.processor import Compose, MapCompose, TakeFirst

enhancement

Reference: http://doc.scrapy.org/en/1.0/topics/commands.html#genspider

In order to crawl Ministerio de Relaciones Exteriores, we need to create a captcha solver using HOG and a Machine Learning algorithm like Support Vector Machines. We can grab ideas...

Ahora que se esta en proceso de refactorizar las spiders y agregar items loaders para la recoleccion de datos. Nos vemos con la necesidad de testar las spider de una...