querido-diario icon indicating copy to clipboard operation
querido-diario copied to clipboard

Adicionar extensão ao arquivo baixado

Open trevineju opened this issue 2 years ago • 2 comments

Os arquivos baixados durante a raspagem às vezes estão sem extensão.

Isso prejudica quem estiver contribuindo com desenvolvimento e teste de raspadores em Windows.

Além disso, como os arquivos entram na infra do projeto assim, faz com que, na ponta (plataforma web) seu download também fique sem extensão (em "baixar o arquivo original") e portanto sem abrir em computadores Windows (que deve ser majoritária parte do público usuário do Querido Diário).

image

Assim, é uma limitação que prejudica usuários no front, mas que começa na etapa de raspagem potencialmente limitando desenvolvedores também.

Tarefa: Implementar uma correção para que a extensão PDF seja adicionada automaticamente

trevineju avatar Jan 13 '23 17:01 trevineju

@Winzen essa issue pode ficar com vc?

trevineju avatar Sep 29 '23 15:09 trevineju

Pr feito @trevineju 🕺

Winzen avatar Sep 30 '23 07:09 Winzen

#1153 foi mesclada e resolve nosso problema atual, mas queria deixar aqui uma preocupação pro futuro. Essa issue relata como a filetype resolve o problema para arquivos binários mas não para arquivos de texto.

Mais pra frente, com raspadores que baixem arquivos HTML sem extensão, provavelmente precisaremos adicionar uma terceira camada de detecção de extensão caso a filetype não consiga detectar uma extensão .html, por exemplo. Talvez voltando a usar python-magic nesses casos.

cc @rennerocha

ogecece avatar Jun 05 '24 18:06 ogecece