Raspagem-de-dados-para-iniciantes icon indicating copy to clipboard operation
Raspagem-de-dados-para-iniciantes copied to clipboard

Raspagem de dados para iniciante usando Scrapy e outras libs básicas

GitHub license

Visits Badge Generic badge

Raspagem de dados para iniciantes :page_facing_up:

Esse repositório foi construido para ajudar qualquer interessado pela área de Raspagem de dados, todo o repositório será em PT-BR, mas os links/documentação podem estar em inglês (compartilhe se você possuir algo traduzido).

Instalação :floppy_disk:

Uso Python versão 3.7

As principais libs que vamos usar aqui são:

  • requests
  • bs4 (BeautifulSoup)
  • Scrapy

Para isso você só precisa instalar algumas bibliotecas, no seu Terminal escreva:

pip install -r requirements.txt

Recomendações

Use o ambiente virtual do Python para programar independente de plataforma.

  • Criação:
python3 -m venv venv
  • Ativação (muda conforme S.O):
source venv/bin/activate
  • Dependências:
pip install -r requirements.txt

Jupyter notebooks

Iremos usar Jupyter notebooks aqui, então se você não tem com a ferramenta, visite a documentação.

Trilha para o tutorial: :mortar_board:

  1. Aprendendo a extrair o texto de um Site
  2. Primeira Spider
  3. Raspagem múltipla
  4. Navegando entre paginas
  5. Coletando mais detalhes
  6. Raspagem em site com Infinite Scroll
  7. Rodando Spider na nuvem

Materiais de estudo:

Blogs: :computer:

Livros: :books:

Documentação: :scroll:

Podcasts: :headphones: :musical_note:

Vídeos: :tv: