covid19-br [Feat] RN Spider

Implementando spider para o estado Rio Grande do Norte.

Fonte usada:

Boletins em pdf de http://www.saude.rn.gov.br/Conteudo.asp?TRAN=ITEM&TARG=240728&ACT=&PAGE=0&PARM=&LBL=ACERVO+DE+MAT%C9RIAS

Esse spider:

Faz o parse do boletim oficial pegando ✅ total oficial ✅ dados dos municípios ❌ dados importados (não são disponibilizados na fonte)

Mar 10 '22 00:03 dehatanes

@turicas você sabe o que pode estar causando esse problema nos testes? Localmente esse problema tinha rolado, mas foi consertado quando rodei pip install pymupdf cached-property. Tentei simular isso no commit 7eede92, mas aparentemente não funcionou 😅

Mar 10 '22 00:03 dehatanes

Sobre os testes, não sei o que pode estar causando, mas localmente eles também passam. Pode ser versão de biblioteca no cache do pip ou alguma dependência que está faltando.

Mar 10 '22 23:03 turicas

@turicas Adicionei um caso de teste. Eu estava adicionando outro exemplo mais antigo, mas peguei que o spider não estava se comportando bem no caso de Natal (por exemplo) desses pdf's (onde o numero de casos de mortes está quebrado em duas linhas).

http://www.adcon.rn.gov.br/ACERVO/sesap/DOC/DOC000000000260378.PDF (10 DE JUNHO DE 2021)
http://www.adcon.rn.gov.br/ACERVO/sesap/DOC/DOC000000000260013.PDF (07 DE JUNHO DE 2021) Porém quando fui investigar esse é um problema que foi corrigido e não acontece nos pdf's recentes. Parece que arrumar o extractor para considerar esse caso vai ser um trampo que poderia ser melhor investido no desenvolvimento de outro scraper.

PS: Essa não é a única inconsistência de dados que esse layout tem. O scraper também falhou em pegar algumas cidades (provavelmente por conta de alguma questão de posicionamento desse layout específico - também não é um problema que aconteceu nos templates recentes), mas são erros facilmente identificados quando usamos a flag --also-export-metadata.

Acha que priorizamos esses casos agora ou então mexemos nisso conforme esses casos voltarem a acontecer?

Mar 12 '22 05:03 dehatanes

covid19-br covid19-br copied to clipboard

[Feat] RN Spider

covid19-br
covid19-br copied to clipboard