covid19-br
covid19-br copied to clipboard
[Feat] RN Spider
Implementando spider para o estado Rio Grande do Norte.
Fonte usada:
- Boletins em pdf de http://www.saude.rn.gov.br/Conteudo.asp?TRAN=ITEM&TARG=240728&ACT=&PAGE=0&PARM=&LBL=ACERVO+DE+MAT%C9RIAS
Esse spider:
- Faz o parse do boletim oficial pegando ✅ total oficial ✅ dados dos municípios ❌ dados importados (não são disponibilizados na fonte)
@turicas você sabe o que pode estar causando esse problema nos testes?
Localmente esse problema tinha rolado, mas foi consertado quando rodei pip install pymupdf cached-property
. Tentei simular isso no commit 7eede92, mas aparentemente não funcionou 😅
Sobre os testes, não sei o que pode estar causando, mas localmente eles também passam. Pode ser versão de biblioteca no cache do pip ou alguma dependência que está faltando.
@turicas Adicionei um caso de teste. Eu estava adicionando outro exemplo mais antigo, mas peguei que o spider não estava se comportando bem no caso de Natal (por exemplo) desses pdf's (onde o numero de casos de mortes está quebrado em duas linhas).
- http://www.adcon.rn.gov.br/ACERVO/sesap/DOC/DOC000000000260378.PDF (10 DE JUNHO DE 2021)
- http://www.adcon.rn.gov.br/ACERVO/sesap/DOC/DOC000000000260013.PDF (07 DE JUNHO DE 2021) Porém quando fui investigar esse é um problema que foi corrigido e não acontece nos pdf's recentes. Parece que arrumar o extractor para considerar esse caso vai ser um trampo que poderia ser melhor investido no desenvolvimento de outro scraper.
PS: Essa não é a única inconsistência de dados que esse layout tem. O scraper também falhou em pegar algumas cidades (provavelmente por conta de alguma questão de posicionamento desse layout específico - também não é um problema que aconteceu nos templates recentes), mas são erros facilmente identificados quando usamos a flag --also-export-metadata
.
Acha que priorizamos esses casos agora ou então mexemos nisso conforme esses casos voltarem a acontecer?