covid19-br icon indicating copy to clipboard operation
covid19-br copied to clipboard

[Feat] RN Spider

Open dehatanes opened this issue 2 years ago • 3 comments

Implementando spider para o estado Rio Grande do Norte.

Fonte usada:

  • Boletins em pdf de http://www.saude.rn.gov.br/Conteudo.asp?TRAN=ITEM&TARG=240728&ACT=&PAGE=0&PARM=&LBL=ACERVO+DE+MAT%C9RIAS

Esse spider:

  • Faz o parse do boletim oficial pegando ✅ total oficial ✅ dados dos municípios ❌ dados importados (não são disponibilizados na fonte)

dehatanes avatar Mar 10 '22 00:03 dehatanes

@turicas você sabe o que pode estar causando esse problema nos testes? Localmente esse problema tinha rolado, mas foi consertado quando rodei pip install pymupdf cached-property. Tentei simular isso no commit 7eede92, mas aparentemente não funcionou 😅

dehatanes avatar Mar 10 '22 00:03 dehatanes

Sobre os testes, não sei o que pode estar causando, mas localmente eles também passam. Pode ser versão de biblioteca no cache do pip ou alguma dependência que está faltando.

turicas avatar Mar 10 '22 23:03 turicas

@turicas Adicionei um caso de teste. Eu estava adicionando outro exemplo mais antigo, mas peguei que o spider não estava se comportando bem no caso de Natal (por exemplo) desses pdf's (onde o numero de casos de mortes está quebrado em duas linhas).

  • http://www.adcon.rn.gov.br/ACERVO/sesap/DOC/DOC000000000260378.PDF (10 DE JUNHO DE 2021)
  • http://www.adcon.rn.gov.br/ACERVO/sesap/DOC/DOC000000000260013.PDF (07 DE JUNHO DE 2021) Porém quando fui investigar esse é um problema que foi corrigido e não acontece nos pdf's recentes. Parece que arrumar o extractor para considerar esse caso vai ser um trampo que poderia ser melhor investido no desenvolvimento de outro scraper.

PS: Essa não é a única inconsistência de dados que esse layout tem. O scraper também falhou em pegar algumas cidades (provavelmente por conta de alguma questão de posicionamento desse layout específico - também não é um problema que aconteceu nos templates recentes), mas são erros facilmente identificados quando usamos a flag --also-export-metadata.

Acha que priorizamos esses casos agora ou então mexemos nisso conforme esses casos voltarem a acontecer?

dehatanes avatar Mar 12 '22 05:03 dehatanes