querido-diario
querido-diario copied to clipboard
Feature - Novo spider para Arraial do Cabo - RJ [Fixes #1261]
Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
- [x] O layout não se parece com nenhum caso da lista de layouts padrão
Código da(s) spider(s)
- [x] O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
- [x] O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
- [x] O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponÃvel no site.
- [x] Explicitar o atributo de classe end_date não se fez necessário.
- [x] Não utilizo
custom_settings
em meu raspador.
Testes
- [x] Uma coleta-teste da última edição foi feita. O arquivo de
.log
deste teste está anexado na PR. - [x] Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de
.log
e.csv
deste teste estão anexados na PR. - [x] Uma coleta-teste completa foi feita. Os arquivos de
.log
e.csv
deste teste estão anexados na PR.
Verificações
- [x] Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
- [x] Eu verifiquei os arquivos
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas. - [x] Eu verifiquei os arquivos de
.log
gerados pela minha coleta conforme a documentação não encontrando problemas.
Descrição
Novo spider customizado para Arraial do Cabo, conforme #1261. Eu mudei a data de inÃcio pois o registro mais antigo que eu consegui encontrar manualmente no site foi em 07/05/2019
.
Anexos
Coleta última edição
scrapy crawl rj_arraial_do_cabo -a start_date=2024-09-20 -s LOG_FILE=rj_arraial_do_cabo.log -o rj_arraial_do_cabo.csv
Coleta intervalo
scrapy crawl rj_arraial_do_cabo -a start_date=2024-09-01 -a end_date=2024-09-20 -s LOG_FILE=rj_arraial_do_cabo.log -o rj_arraial_do_cabo.csv
Coleta completa
scrapy crawl rj_arraial_do_cabo -s LOG_FILE=rj_arraial_do_cabo.log -o rj_arraial_do_cabo.csv