CNPJ-full
CNPJ-full copied to clipboard
Layout completamente novo
A receita federal mudou completamente o layout dos arquivos e tambem a pagina de download. O novo link: https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cnpj Embora o novo layout indique que existe informacao de simples/mei, os arquivos disponibilizados nao tem simples/mei. Um dos arquivos ( DADOS_CNPJ_EMPRESAS_1.zip ) esta incompleto. O good news é que os arquivos agora estao em formato csv.
Alguma informação sobre o país dos sócios estrangeiros vir correto agora?
Denis
Em 20 de mar de 2021, à(s) 16:56, Marcio Almeida @.***> escreveu:
A receita federal mudou completamente o layout dos arquivos e tambem a pagina de download. O novo link: https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cnpj Embora o novo layout indique que existe informacao de simples/mei, os arquivos disponibilizados nao tem simples/mei. Um dos arquivos ( DADOS_CNPJ_EMPRESAS_1.zip ) esta incompleto. O good news é que os arquivos agora estao em formato csv.
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.
Pois é, fomos surpreendidos com essa mudança radical na forma de disponibilizar os dados. Ainda não atualizei os scripts do repositório. A questão é que agora, supostamente, o script não seria mais necessário para quem o utiliza apenas para gerar arquivos CSV. Pretendo de qualquer forma atualizá-los, principalmente para quem o utiliza para geração da base SQLite e uso dos recursos de consulta.
Pois é, em teoria o script não seria mais necessario mesmo para carregar um DB porque os csvs ja estao separados em 3 tabelas (empresas, estabelecimentos e socios). Me parece que deveria existir uma quarta tabela para simples/mei. Notei porem os seguintes problemas com os csvs:
- Nao estao em UTF8
- Varias casos contem brancos no inicio/fim (merecem trim)
- Coluna capital social em muitos casos tem um monte de zeros a esquerda (ex: 0000050000,00)
- Em varios casos existe um "backslash" antes do fim do campo (ex: .....";")
Notei tambem que a coluna nome da tabela de socios esta em branco em uma grande quantidade de registros.
A RF liberou hoje a tarde um novo release de dados de CNPJ. Os nomes dos arquivos mudaram e agora tem um arquivo de SIMPLES. Alguns links estao errados com href="http://http//"
Pois é, em teoria o script não seria mais necessario mesmo para carregar um DB porque os csvs ja estao separados em 3 tabelas (empresas, estabelecimentos e socios). Me parece que deveria existir uma quarta tabela para simples/mei. Notei porem os seguintes problemas com os csvs:
- Nao estao em UTF8
- Varias casos contem brancos no inicio/fim (merecem trim)
- Coluna capital social em muitos casos tem um monte de zeros a esquerda (ex: 0000050000,00)
- Em varios casos existe um "backslash" antes do fim do campo (ex: .....";")
Notei tambem que a coluna nome da tabela de socios esta em branco em uma grande quantidade de registros.
ATENÇÃO.
Além desses problemas, nos arquivos extraídos em 16/03/2021 os nomes dos sócios estão totalmente errados. Conferi vários usando a Emissão de Comprovante de Inscrição e de Situação Cadastral da própria receita.
para tentar agilizar a solução abri chamado na https://falabr.cgu.gov.br/Principal.aspx já tive outros casos onde eles responderam bem rápido.
Se vocês puderem abrir chamado lá também talvez ajude a nota o problema.
A tabela empresas está sem os cnpjs que começam com 0, o que deixa a base bem inconsistente. Referência Base (05/04/2021)
A tabela empresas tem 9.701.387 CNPJs que comecam com 0. Voce nao verificou corretamente.
Desculpe, eu cometi um engano. No site da SRF tem uns links que estão começando com dois http:// , como http://http//200.152.38.155..., esses arquivos acabei não baixando, por isso estou sem todos os dados.
Não estou conseguindo juntar as tabelas ;-; muito menos converter elas para mysql... Alguem poderia me ajudar em algum desses fatores por favor?
Olá, a Receita Federal soltou uma atualização dos arquivos em 14/04/2021. Alguém chegou a testar se os erros citados aqui já foram sanados?
Olá, a Receita Federal soltou uma atualização dos arquivos em 14/04/2021. Alguém chegou a testar se os erros citados aqui já foram sanados?
@elossio você tem esse novo link para nos passar? no site da receita vejo que os arquivos foram Atualizado em 05/04/2021 14h43 mas a Data da última extração: 16/03/2021
Olá, a Receita Federal soltou uma atualização dos arquivos em 14/04/2021. Alguém chegou a testar se os erros citados aqui já foram sanados?
@elossio você tem esse novo link para nos passar? no site da receita vejo que os arquivos foram Atualizado em 05/04/2021 14h43 mas a Data da última extração: 16/03/2021
@souzagilson15 Segue o link http://200.152.38.155/CNPJ/ (Na verdade, os arquivos estão com data de 14/04/2021 mas acho que os dados foram extraídos em 10/04/2021)
Não estou conseguindo juntar as tabelas ;-; muito menos converter elas para mysql... Alguem poderia me ajudar em algum desses fatores por favor?
@juanfariasdev Você está pensando em fazer um merge das tabelas CSV antes importá-las de uma só vez para o banco? Passa pra gente os seus passos até agora desde o download do site da SRF. Alterei um script em python DownloadCNPJ.py para baixar os arquivos. Você vai notar que alguns dados precisam de tratamento antes de carregá-los para o seu SGDB. Estou usando encoding WIN1252 na importação dos arquivos CSV para o PostGreSQL. Eu costumo fazer a importação individual de cada tabela CSV para acompanhamento dos erros gerados na extração para depois fazer um tratamento antes da carga no banco.
Sqlite DB que eu gerei com base nos arquivos liberados em 19/4/21 (extraidos em 10/4/21)
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210410.db.zip https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210410.db.md5 https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210410.db.diagrama.png
A tabela de socios melhorou, agora so tem 2.104 socios sem nome Infelimente continua o problema de nome de socio errado
@buzios, você chegou a notar duplicatas na tabela estabelecimentos? Na minha tabela, a chave primária é composta de cnpj, cnpj_ordem e cnpj_dv, o que me permitiu constatar duplicatas.
@buzios, você chegou a notar duplicatas na tabela estabelecimentos? Na minha tabela, a chave primária é composta de cnpj, cnpj_ordem e cnpj_dv, o que me permitiu constatar duplicatas.
Não vejo motivo para incluir cnpj_dv na chave primaria. DV é consequencia do cnpj_base + cnpj_ordem. Faz sentido validar o DV antes de inserir na tabela.
Quanto a sua pergunta, sim tive alguns erros de constraint a saber: EMPRECSV 10522835 38066899 UNIQUE constraint 12114632 razao_social em branco
ESTABELE 38066899 10522835 UNIQUE constraint
SIMPLCSV 24417449 24539162 30721933 30728066 30760363 30847991 30857441 30886793 30972017 UNIQUE constraint
Os erros acima não deveriam existir porem em se trantando de orgão publico fazendo a coisa com ma vontade ....
O pior porem continua a tabela de socios. 2.104 nomes em branco
Um monte de socio com nome errado. Exemplo: CNPJ 38338022000139 5 socios com a mesma razao social e CNPJs diferentes
[nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
[cpf_cnpj] => 34818670000131
[nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
[cpf_cnpj] => 31122052000164
[nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
[cpf_cnpj] => 34612852000151
[nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
[cpf_cnpj] => 22731799000129
[nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
[cpf_cnpj] => 24692744000182
@buzios, você chegou a notar duplicatas na tabela estabelecimentos? Na minha tabela, a chave primária é composta de cnpj, cnpj_ordem e cnpj_dv, o que me permitiu constatar duplicatas.
Não vejo motivo para incluir cnpj_dv na chave primaria. DV é consequencia do cnpj_base + cnpj_ordem. Faz sentido validar o DV antes de inserir na tabela.
Quanto a sua pergunta, sim tive alguns erros de constraint a saber: EMPRECSV 10522835 38066899 UNIQUE constraint 12114632 razao_social em branco
ESTABELE 38066899 10522835 UNIQUE constraint
SIMPLCSV 24417449 24539162 30721933 30728066 30760363 30847991 30857441 30886793 30972017 UNIQUE constraint
Os erros acima não deveriam existir porem em se trantando de orgão publico fazendo a coisa com ma vontade ....
O pior porem continua a tabela de socios. 2.104 nomes em branco
Um monte de socio com nome errado. Exemplo: CNPJ 38338022000139 5 socios com a mesma razao social e CNPJs diferentes
[nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA [cpf_cnpj] => 34818670000131 [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA [cpf_cnpj] => 31122052000164 [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA [cpf_cnpj] => 34612852000151 [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA [cpf_cnpj] => 22731799000129 [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA [cpf_cnpj] => 24692744000182
@buzios Aviso quando concluir a importação da tabela SOCIOCSV. Até agora os erros de constraints são os mesmos. Creio ser possível informar os erros aos responsáveis pela extração. Possivelmente, esta tarefa seja executada pelo SERPRO.
Problemas na tabela de socios de 10/4/21
Ha 20.333.422 registros na tabela sendo 405.000 socios PJ
393.756 socios PJ estao com o nome (razao social no caso) ERRADO.
Notei um outro problema. Trata-se do PORTE da empresa.
O novo layout: (2021) 1 – NÃO INFORMADO 2 - MICRO EMPRESA 3 - EMPRESA DE PEQUENO PORTE 5 - DEMAIS
No layout antigo (2020) 0 – NÃO INFORMADO 1 - MICRO EMPRESA 3 - EMPRESA DE PEQUENO PORTE 5 - DEMAIS
Não ha nenhum registro com codigo 2 Ha varios registros com codigo 0 Aparentemente continua a ser usado esquema de 2020
Olá, disponibilizei uma ferramenta em Python para importar o novo formato em CSV dos arquivos da receita: https://github.com/lucasfacchini/open-data-cnpj-import
Nesse repositorio está contido um script para download e descompactaçāo dos dados, bem como o importador para BD MySQL.
Saiu hoje atualizacao dos arquivos de CNPJ. A data dos arquivos CSV é 12/5/2021 Eu fiz o download e unzipei todos os arquivos. Todos os arquivos estao integros.
Legal. Alguém sabe se a informação de país dos sócios estrangeiros está constando? Ela existia nas primeiras versões, mas não parecia confiável.
Denis
Em 13 de mai de 2021, à(s) 21:29, Marcio Almeida @.***> escreveu:
Saiu hoje atualizacao dos arquivos de CNPJ. A data dos arquivos CSV é 12/5/2021 Eu fiz o download e unzipei todos os arquivos. Todos os arquivos estao integros.
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
Oi Pessoal bom dia.
como faço para coletar dados contendo email e telefone?
Saiu atualizacao Data da última extração: 16/07/2021
Todos os arquivos estao OK. Baixei todos e "unzipei".
No site tambem diz que mensalmente o governo vai atualizar a base. Alguém sabe dizer como é isso? Eles vão adicionar arquivos mensalmente? Ou vão incrementar no último arquivo ou vão jogar no meio e teremos que todo mês baixar tudo?