querido-diario icon indicating copy to clipboard operation
querido-diario copied to clipboard

Verificando falta de extensão

Open Winzen opened this issue 1 year ago • 1 comments

AO ABRIR um Pull Request de um novo raspador (spider), marque com um X cada um dos items do checklist abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.

Checklist - Novo spider

  • [x] Você executou uma extração completa do spider localmente e os dados retornados estavam corretos.
  • [x] Você executou uma extração por período (start_date e end_date definidos) ao menos uma vez e os dados retornados estavam corretos.
  • [x] Você verificou que não existe nenhum erro nos logs (log_count/ERROR igual a zero).
  • [x] Você definiu o atributo de classe start_date no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.
  • [x] Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.

Descrição

PR referente #819

Fiz o levantamento que de 250478 diários raspados, 53,95% deles que equivale a um total de 135139 diários, estão sem extensão e como já foi descrito em #819 é um problema para os usuários do Windows. Dados levantados ➡️ Dados

Escolhi 5 dos municípios com mais diários sem extensão para fazer os teste: Cuiabá, Santos, Rio de Janeiro, Santo André e Belém. image

Primeiro testei eles sem o validador de extensão, para confirmar que eles não estavam sendo armazenados com .pdf. Segui os logs confirmando a falta de extensão: log_pa_belem_sem_extensão.txt log_rj_rio_de_janeiro_sem_extensão.txt log_sp_santo_andre_sem_extensão.txt log_sp_santos_sem_extensão.txt log_mt_cuiaba_sem_extensão.txt

Como vemos em todos os registros dos logs o path está sem extensão. Exemplo: 'path': '5103403\\2023-09-04\\ebb9ca864c1569b7cdb25e599e00a49b77d38b4c'

Agora segue os mesmo rapadores, com o validador colocado na pipelines.py. Logs: log_pa_belem_com_extensão.txt log_rj_rio_de_janeiro_com_extensão.txt log_sp_santo_andre_com_extensão.txt log_sp_santos_com_extensão.txt log_mt_cuiaba_com_extensão.txt

Vemos que agora todos eles estão com extensão correta em path. Exemplo: 'path': '5103403\\2023-09-04\\ebb9ca864c1569b7cdb25e599e00a49b77d38b4c.pdf',

E para finalizar fiz teste com 5 dos municípios com mais diários que estão com extensão corretamente: Porto Alegre, Goiânia, Manaus, Salvador e Natal image

Segue os logs:

log_rn_natal.txt log_rs_porto_alegre.txt log_am_manaus.txt log_ba_salvador.txt log_go_goiania.txt

Vemos que eles se encontram sem erros e com as extensão ainda correta, mesmo com o validador já inserido a pipelines.py.

Obs: Acredito que tenha forma mais "legante" de fazer essa validação que posteriormente poderia ser aplicada. Mas já deixo o PR até eu ver isso e a ideia se alguém tiver uma melhor abordagem.

Winzen avatar Sep 30 '23 07:09 Winzen

@Winzen será que você conseguiria atualizar a história dos commits? Se você navegar até o repositório pelo terminal, voltar pra branch principal (git checkout main) e atualizar sua main local com a main do repositório (git fetch, git pull). Com a main local atualizada, você não precisa criar um merge ( aquele fc80 que aparece aqui ), bastaria voltar para a branch deste PR (git checkout add_extension) e aí usa git rebase main. Se tudo der certo, vc vai perceber que os commits meus e do Renne vão sair deste histórico, ficando apenas os teus. Vai precisar forçar (git push -f) para enviar as modificações de volta pra cá

trevineju avatar Oct 01 '23 20:10 trevineju

Fechando o PR em razão da implementação de #1153

ogecece avatar Jun 03 '24 20:06 ogecece