Geraldo Castro

Results 33 comments of Geraldo Castro

Em alguns testes que eu fiz, eu tive problemas na hora de baixar e salvar arquivos muito grandes (2GB aprox). Pelo que entendi/percebi, é porque antes de salvarmos em um...

Eu pensei em verificar a extensão antes de tentar executar o `unlink`. Cê acha que faz sentido? Algo mais ou menos assim ([nesse arquivo](https://github.com/DadosAbertosDeFeira/maria-quiteria/blob/1b4011b657de310a99e1e5c2a0afd2299b7b6946/web/datasets/tasks.py#L55)): ```python has_rar_extension = path.endswith('.rar') raw =...

```python has_rar_extension = path.endswith('.rar') if has_rar_extension: return raw = parser.from_file(path) if not keep_file: Path(path).unlink() if a_file: a_file.content = raw["content"] a_file.save() return raw["content"] ``` Ou algo assim, dependendo do que seja...

@anapaulagomes tenho algumas dúvidas, cê poderia me ajudar? - Qual é a responsabilidade do `tika` no projeto? Quando rodamos o `raw = parser.from_file(path)`, qual o conteúdo que esperamos de lá?...

Show! Daí, quando manipulamos arquivos compactados com o Tika, ele vai saber como manipular todos os tipos de arquivos lá dentro (PDF, corel draw, txt) e nos trazer uma string...

Feshow! Vou fazer uns testes/profilings e trago mais informações sobre a mudança.

Fazendo alguns experimentos com o `tika` e com bibliotecas que descompactam arquivos RAR no python (como `patoolib` e `rarfile`) pude perceber alguns pontos (interessantes talvez): - Acredito que a maioria...

Encontrei uma abordagem interessante no stackoverflow para converter arquivos `RAR` para `ZIP` ([link](https://stackoverflow.com/a/1757998)). Podemos usar a biblioteca `tempfile` para criar um diretorio temporario com os arquivos descompactados e depois compactarmos...

É pra pegar os dados apenas desse ano? Pelo que notamos, os dados nesse site começam a partir de 2018. Estávamos conversando sobre abordagens para realizar o scraping e notamos...