Ana Paula Gomes

Results 110 comments of Ana Paula Gomes

Fora as configurações do .env, acredito que não. Pra evitar conectar no S3 direto, criei uns stubs que interagem com o sistema de arquivos local. Não sei o que tu...

Boa! 👏🏽

Comecei a fazer isso nessa branch https://github.com/DadosAbertosDeFeira/maria-quiteria/tree/coleta-licitacoes-legadas. Dor e sofrimento.

A extração do conteúdo não consegue encontrar os arquivos locais: ``` maria-quiteria-worker-1 | [2021-10-04 04:19:58,879: INFO/MainProcess] Task web.datasets.tasks.content_from_file[5f297b9e-c1cb-4a53-874d-e8754532ad3b] received maria-quiteria-worker-1 | [2021-10-04 04:19:58,891: INFO/ForkPoolWorker-5] Arquivo /code/data/tmp/maria-quiteria-local/files/citycouncilminute/2021/10/4/ata45.pdf não encontrado. ``` Ao...

Ontem troquei uma ideia com o @cuducos pra explicar melhor o porquê está assim. Vou tentar colocar aqui mas acho que vale a pena a gente trocar uma ideia (entro...

Na verdade, o melhor seria evitar pular os arquivos `.rar` porque eles são maioria nos arquivos compactados - se não forem todos. Perdão pela descrição da issue porque ela não...

Claro! :) * O Tika é o serviço que extrai de arquivos os seus textos. Esperamos uma grande string com todo o conteúdo. * Atualmente o tika-python é apenas uma...

> Show! Daí, quando manipulamos arquivos compactados com o Tika, ele vai saber como manipular todos os tipos de arquivos lá dentro (PDF, corel draw, txt) e nos trazer uma...

Massa, @exageraldo! Por ora, podemos converter em zip e mandar tudo mesmo. Não são muitos os que tem arquivos corel draw e outros. hahaha Obrigada pela investigação! 🥇 Taca lhe...

Curiosidade: dos 260 mil arquivos que temos, 500 deles são `.rar`. Embora seja um número baixo, as licitações que tem mais arquivos tem mais itens ou são mais caras (pela...