Ana Paula Gomes
Ana Paula Gomes
Fora as configurações do .env, acredito que não. Pra evitar conectar no S3 direto, criei uns stubs que interagem com o sistema de arquivos local. Não sei o que tu...
Boa! 👏🏽
Comecei a fazer isso nessa branch https://github.com/DadosAbertosDeFeira/maria-quiteria/tree/coleta-licitacoes-legadas. Dor e sofrimento.
A extração do conteúdo não consegue encontrar os arquivos locais: ``` maria-quiteria-worker-1 | [2021-10-04 04:19:58,879: INFO/MainProcess] Task web.datasets.tasks.content_from_file[5f297b9e-c1cb-4a53-874d-e8754532ad3b] received maria-quiteria-worker-1 | [2021-10-04 04:19:58,891: INFO/ForkPoolWorker-5] Arquivo /code/data/tmp/maria-quiteria-local/files/citycouncilminute/2021/10/4/ata45.pdf não encontrado. ``` Ao...
Ontem troquei uma ideia com o @cuducos pra explicar melhor o porquê está assim. Vou tentar colocar aqui mas acho que vale a pena a gente trocar uma ideia (entro...
Na verdade, o melhor seria evitar pular os arquivos `.rar` porque eles são maioria nos arquivos compactados - se não forem todos. Perdão pela descrição da issue porque ela não...
Claro! :) * O Tika é o serviço que extrai de arquivos os seus textos. Esperamos uma grande string com todo o conteúdo. * Atualmente o tika-python é apenas uma...
> Show! Daí, quando manipulamos arquivos compactados com o Tika, ele vai saber como manipular todos os tipos de arquivos lá dentro (PDF, corel draw, txt) e nos trazer uma...
Massa, @exageraldo! Por ora, podemos converter em zip e mandar tudo mesmo. Não são muitos os que tem arquivos corel draw e outros. hahaha Obrigada pela investigação! 🥇 Taca lhe...
Curiosidade: dos 260 mil arquivos que temos, 500 deles são `.rar`. Embora seja um número baixo, as licitações que tem mais arquivos tem mais itens ou são mais caras (pela...