querido-diario
querido-diario copied to clipboard
Feature - Novo spider para Parnaíba/PI [Fixes #719]
Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
- [x] O layout não se parece com nenhum caso da lista de layouts padrão
Código da(s) spider(s)
- [x] O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
- [x] O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
- [x] O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
- [x] Explicitar o atributo de classe end_date não se fez necessário.
- [x] Não utilizo
custom_settings
em meu raspador.
Testes
- [x] Uma coleta-teste da última edição foi feita. O arquivo de
.log
deste teste está anexado na PR. - [x] Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de
.log
e.csv
deste teste estão anexados na PR. - [x] Uma coleta-teste completa foi feita. Os arquivos de
.log
e.csv
deste teste estão anexados na PR.
Verificações
- [x] Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
- [x] Eu verifiquei os arquivos
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas. - [x] Eu verifiquei os arquivos de
.log
gerados pela minha coleta conforme a documentação não encontrando problemas.
Descrição
Adicionando spider para Parnaíba-PI conforme #719.
Anexos
Houveram apenas alguns erros relacionados com formatação de data para algumas datas específicas, mas apenas erros de digitação do cadastro, como
14--12-2017
e18-0502020
.
Coleta última edição
scrapy crawl pi_parnaiba -a start_date=2024-09-19 -s LOG_FILE=pi_parnaiba.log -o pi_parnaiba.csv
Coleta intervalo
scrapy crawl pi_parnaiba -a start_date=2024-09-17 -a end_date=2024-09-19 -s LOG_FILE=pi_parnaiba.log -o pi_parnaiba.csv
Coleta completa
scrapy crawl pi_parnaiba -s LOG_FILE=pi_parnaiba.log -o pi_parnaiba.csv