querido-diario
querido-diario copied to clipboard
Verificando falta de extensão
AO ABRIR um Pull Request de um novo raspador (spider), marque com um X
cada um dos items do checklist
abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.
Checklist - Novo spider
- [x] Você executou uma extração completa do spider localmente e os dados retornados estavam corretos.
- [x] Você executou uma extração por período (
start_date
eend_date
definidos) ao menos uma vez e os dados retornados estavam corretos. - [x] Você verificou que não existe nenhum erro nos logs (
log_count/ERROR
igual a zero). - [x] Você definiu o atributo de classe
start_date
no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade. - [x] Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.
Descrição
PR referente #819
Fiz o levantamento que de 250478 diários raspados, 53,95% deles que equivale a um total de 135139 diários, estão sem extensão e como já foi descrito em #819 é um problema para os usuários do Windows. Dados levantados ➡️ Dados
Escolhi 5 dos municípios com mais diários sem extensão para fazer os teste: Cuiabá
, Santos
, Rio de Janeiro
, Santo André
e Belém
.
Primeiro testei eles sem o validador de extensão, para confirmar que eles não estavam sendo armazenados com .pdf
.
Segui os logs confirmando a falta de extensão:
log_pa_belem_sem_extensão.txt
log_rj_rio_de_janeiro_sem_extensão.txt
log_sp_santo_andre_sem_extensão.txt
log_sp_santos_sem_extensão.txt
log_mt_cuiaba_sem_extensão.txt
Como vemos em todos os registros dos logs o path
está sem extensão.
Exemplo: 'path': '5103403\\2023-09-04\\ebb9ca864c1569b7cdb25e599e00a49b77d38b4c'
Agora segue os mesmo rapadores, com o validador colocado na pipelines.py
.
Logs:
log_pa_belem_com_extensão.txt
log_rj_rio_de_janeiro_com_extensão.txt
log_sp_santo_andre_com_extensão.txt
log_sp_santos_com_extensão.txt
log_mt_cuiaba_com_extensão.txt
Vemos que agora todos eles estão com extensão correta em path
.
Exemplo: 'path': '5103403\\2023-09-04\\ebb9ca864c1569b7cdb25e599e00a49b77d38b4c.pdf',
E para finalizar fiz teste com 5 dos municípios com mais diários que estão com extensão corretamente: Porto Alegre
, Goiânia
, Manaus
, Salvador
e Natal
Segue os logs:
log_rn_natal.txt log_rs_porto_alegre.txt log_am_manaus.txt log_ba_salvador.txt log_go_goiania.txt
Vemos que eles se encontram sem erros e com as extensão ainda correta, mesmo com o validador já inserido a pipelines.py
.
Obs: Acredito que tenha forma mais "legante" de fazer essa validação que posteriormente poderia ser aplicada. Mas já deixo o PR até eu ver isso e a ideia se alguém tiver uma melhor abordagem.
@Winzen será que você conseguiria atualizar a história dos commits?
Se você navegar até o repositório pelo terminal, voltar pra branch principal (git checkout main
) e atualizar sua main local com a main do repositório (git fetch
, git pull
). Com a main local atualizada, você não precisa criar um merge ( aquele fc80 que aparece aqui ), bastaria voltar para a branch deste PR (git checkout add_extension
) e aí usa git rebase main
. Se tudo der certo, vc vai perceber que os commits meus e do Renne vão sair deste histórico, ficando apenas os teus. Vai precisar forçar (git push -f
) para enviar as modificações de volta pra cá
Fechando o PR em razão da implementação de #1153