querido-diario icon indicating copy to clipboard operation
querido-diario copied to clipboard

[Revisão retroativa] Vitória da Conquista - BA

Open Winzen opened this issue 1 year ago • 2 comments

AO ABRIR um Pull Request de um novo raspador (spider), marque com um X cada um dos items do checklist abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.

Checklist - Novo spider

  • [x] Você executou uma extração completa do spider localmente e os dados retornados estavam corretos.
  • [x] Você executou uma extração por período (start_date e end_date definidos) ao menos uma vez e os dados retornados estavam corretos.
  • [x] Você verificou que não existe nenhum erro nos logs (log/ERROR igual a zero).
  • [x] Você definiu o atributo de classe start_date no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.
  • [x] Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.

Descrição

PR referente à issue #841

Código estava com problemas em:

  • start_date e end_date não funcionavam corretamente.
  • Falta de "Numero de edição" na coleta dos Diários.
  • Excessivos requests em alguns Crawls pela falta de filtro nas datas

Detalhes (Possível melhorar de leitura do código):

  • Linha 33 talvez não necessária.
  • Pode ser melhor criar uma variável para guarda o numero da edição.
  • Trocar ".extract_first()" por ".get()"

Os arquivos baixados não estão sendo colocados com extensão PDF. Porém, ainda estão sendo lidos por leitores de PDF. Encontrei uma mensagem no servidores do discord que falava que a falta de extensão no arquivo não era um problema.

Winzen avatar Apr 13 '23 06:04 Winzen

Acabei notando, testando de novo essa revisão. Que existe um outro site que esta guardando os diários de 30/06/2013 a 29/08/2003 e o atual código não esta funcionado para ele. http://ba.portaldatransparencia.com.br/prefeitura/vitoriadaconquista/

Posso ver de acrescentar esse outro site no atual código também

Winzen avatar Apr 22 '23 06:04 Winzen

obrigada pela contribuição @Winzen!

Por enquanto, pode deixar apenas o site atual. Temos dois PRs abertos com ideias de como lidar com essa situação de uma cidade publicar em mais de um site, em épocas diferentes: #837 #849. Até resolvermos como vamos atacar essa situação, acredito que não precisa dedicar esforços nisso.

trevineju avatar Apr 24 '23 13:04 trevineju