querido-diario
querido-diario copied to clipboard
Adicionar extensão ao arquivo baixado
Os arquivos baixados durante a raspagem às vezes estão sem extensão.
Isso prejudica quem estiver contribuindo com desenvolvimento e teste de raspadores em Windows.
Além disso, como os arquivos entram na infra do projeto assim, faz com que, na ponta (plataforma web) seu download também fique sem extensão (em "baixar o arquivo original") e portanto sem abrir em computadores Windows (que deve ser majoritária parte do público usuário do Querido Diário).
Assim, é uma limitação que prejudica usuários no front, mas que começa na etapa de raspagem potencialmente limitando desenvolvedores também.
Tarefa: Implementar uma correção para que a extensão PDF seja adicionada automaticamente
@Winzen essa issue pode ficar com vc?
Pr feito @trevineju 🕺
#1153 foi mesclada e resolve nosso problema atual, mas queria deixar aqui uma preocupação pro futuro. Essa issue relata como a filetype
resolve o problema para arquivos binários mas não para arquivos de texto.
Mais pra frente, com raspadores que baixem arquivos HTML sem extensão, provavelmente precisaremos adicionar uma terceira camada de detecção de extensão caso a filetype
não consiga detectar uma extensão .html
, por exemplo. Talvez voltando a usar python-magic
nesses casos.
cc @rennerocha