querido-diario
querido-diario copied to clipboard
[Manutenção] Peritoró - MA
Em #880, o raspador que até então tinhamos para Peritoró - MA foi desativado pois a cidade mudou o site publicador.
Precisa-se reconstruir o arquivo ma_peritoro.py
para raspar o novo site.
https://dom.peritoro.ma.gov.br/
Olá, eu gostaria de pegar essa issue, e aproveito para tirar duas dúvidas:
Existe algum outro padrão/modelo para seguir, no lugar do BaseAplusSpider
ou tem que criar um do zero mesmo?
A outra dúvida, que seria mais sobre o funcionamento da ferramenta eu acho, é como ficam os diários mais antigos dessa cidade, pois eu percebi pela data do código fonte, que tem diários de 2020.
oi, @rafaelgotts! Tem que criar do zero. O BaseAplusSpider
que tem lá no arquivo da cidade não é mais usado, o site mudou, por isso todas as variáveis que tem ali no raspador precisam ser atualizadas com o que tem no novo site (ele não tem diários de 2020 no novo site, mas tem um diário de 2018 haha). Como no site antigo simplesmente não existe mais diários, não precisa criar um novo arquivo (tipo ma_peritoro_2.py
) pode simplesmente reescrever o código no arquivo existente.
por enquanto, Gotts, pode escolher a data mais antiga possível para desenvolver e testar. Mas queria uma orientação do @ogecece aqui. Você acha melhor configurar o start_date
pra quando, tendo em vista que esse é o caso no qual já temos de 04-01-21 até 04-04-23?
aliás, acabo de ver que esse site de Peritoró tem um problema na paginação. Diz ali que só tem 5 páginas, mas dá pra ver as outras páginas seguindo o padrão da url (https://dom.peritoro.ma.gov.br/page/7/)
Blz, vou seguir essas orientações. Obrigado pela resposta e pelas dicas.
@rafaelgotts, o site de diários de peritoró-MA mudou de novo :(
http://www.transparenciadministrativa.com.br/diario/diariov2.xhtml?token=9de645b503b922df799865ffcb07a6ec7b9cb53e
vi que você já fez o PR pra fazer a correção que precisava (muito obrigada!!), mas o PR também já não serve mais 😢
você pretende continuar trabalhando nisso?
Oi @trevineju pretendo continuar sim!
Vou ajustar o PR depois. Obrigado por avisar!
Estou liberando esta issue para quem estiver interessada(o) em contribuir (:
Reforçando que o atual link de Peritoró-MA é: http://www.transparenciadministrativa.com.br/diario/diariov2.xhtml?token=9de645b503b922df799865ffcb07a6ec7b9cb53e
Substituída pela issue #1247