CNPJ-full icon indicating copy to clipboard operation
CNPJ-full copied to clipboard

Layout completamente novo

Open buzios opened this issue 3 years ago • 23 comments

A receita federal mudou completamente o layout dos arquivos e tambem a pagina de download. O novo link: https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cnpj Embora o novo layout indique que existe informacao de simples/mei, os arquivos disponibilizados nao tem simples/mei. Um dos arquivos ( DADOS_CNPJ_EMPRESAS_1.zip ) esta incompleto. O good news é que os arquivos agora estao em formato csv.

buzios avatar Mar 20 '21 15:03 buzios

Alguma informação sobre o país dos sócios estrangeiros vir correto agora?

Denis

Em 20 de mar de 2021, à(s) 16:56, Marcio Almeida @.***> escreveu:

 A receita federal mudou completamente o layout dos arquivos e tambem a pagina de download. O novo link: https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cnpj Embora o novo layout indique que existe informacao de simples/mei, os arquivos disponibilizados nao tem simples/mei. Um dos arquivos ( DADOS_CNPJ_EMPRESAS_1.zip ) esta incompleto. O good news é que os arquivos agora estao em formato csv.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

k0al4 avatar Mar 20 '21 16:03 k0al4

Pois é, fomos surpreendidos com essa mudança radical na forma de disponibilizar os dados. Ainda não atualizei os scripts do repositório. A questão é que agora, supostamente, o script não seria mais necessário para quem o utiliza apenas para gerar arquivos CSV. Pretendo de qualquer forma atualizá-los, principalmente para quem o utiliza para geração da base SQLite e uso dos recursos de consulta.

fabioserpa avatar Mar 20 '21 22:03 fabioserpa

Pois é, em teoria o script não seria mais necessario mesmo para carregar um DB porque os csvs ja estao separados em 3 tabelas (empresas, estabelecimentos e socios). Me parece que deveria existir uma quarta tabela para simples/mei. Notei porem os seguintes problemas com os csvs:

  • Nao estao em UTF8
  • Varias casos contem brancos no inicio/fim (merecem trim)
  • Coluna capital social em muitos casos tem um monte de zeros a esquerda (ex: 0000050000,00)
  • Em varios casos existe um "backslash" antes do fim do campo (ex: .....";")

Notei tambem que a coluna nome da tabela de socios esta em branco em uma grande quantidade de registros.

buzios avatar Mar 21 '21 11:03 buzios

A RF liberou hoje a tarde um novo release de dados de CNPJ. Os nomes dos arquivos mudaram e agora tem um arquivo de SIMPLES. Alguns links estao errados com href="http://http//"

buzios avatar Apr 05 '21 20:04 buzios

Pois é, em teoria o script não seria mais necessario mesmo para carregar um DB porque os csvs ja estao separados em 3 tabelas (empresas, estabelecimentos e socios). Me parece que deveria existir uma quarta tabela para simples/mei. Notei porem os seguintes problemas com os csvs:

  • Nao estao em UTF8
  • Varias casos contem brancos no inicio/fim (merecem trim)
  • Coluna capital social em muitos casos tem um monte de zeros a esquerda (ex: 0000050000,00)
  • Em varios casos existe um "backslash" antes do fim do campo (ex: .....";")

Notei tambem que a coluna nome da tabela de socios esta em branco em uma grande quantidade de registros.

ATENÇÃO.

Além desses problemas, nos arquivos extraídos em 16/03/2021 os nomes dos sócios estão totalmente errados. Conferi vários usando a Emissão de Comprovante de Inscrição e de Situação Cadastral da própria receita.

para tentar agilizar a solução abri chamado na https://falabr.cgu.gov.br/Principal.aspx já tive outros casos onde eles responderam bem rápido.

Se vocês puderem abrir chamado lá também talvez ajude a nota o problema.

souzagilson15 avatar Apr 12 '21 17:04 souzagilson15

A tabela empresas está sem os cnpjs que começam com 0, o que deixa a base bem inconsistente. Referência Base (05/04/2021)

A tabela empresas tem 9.701.387 CNPJs que comecam com 0. Voce nao verificou corretamente.

buzios avatar Apr 13 '21 10:04 buzios

Desculpe, eu cometi um engano. No site da SRF tem uns links que estão começando com dois http:// , como http://http//200.152.38.155..., esses arquivos acabei não baixando, por isso estou sem todos os dados.

rictom avatar Apr 13 '21 15:04 rictom

Não estou conseguindo juntar as tabelas ;-; muito menos converter elas para mysql... Alguem poderia me ajudar em algum desses fatores por favor?

juanfariasdev avatar Apr 13 '21 19:04 juanfariasdev

Olá, a Receita Federal soltou uma atualização dos arquivos em 14/04/2021. Alguém chegou a testar se os erros citados aqui já foram sanados?

elossio avatar Apr 18 '21 19:04 elossio

Olá, a Receita Federal soltou uma atualização dos arquivos em 14/04/2021. Alguém chegou a testar se os erros citados aqui já foram sanados?

@elossio você tem esse novo link para nos passar? no site da receita vejo que os arquivos foram Atualizado em 05/04/2021 14h43 mas a Data da última extração: 16/03/2021

souzagilson15 avatar Apr 19 '21 11:04 souzagilson15

Olá, a Receita Federal soltou uma atualização dos arquivos em 14/04/2021. Alguém chegou a testar se os erros citados aqui já foram sanados?

@elossio você tem esse novo link para nos passar? no site da receita vejo que os arquivos foram Atualizado em 05/04/2021 14h43 mas a Data da última extração: 16/03/2021

@souzagilson15 Segue o link http://200.152.38.155/CNPJ/ (Na verdade, os arquivos estão com data de 14/04/2021 mas acho que os dados foram extraídos em 10/04/2021)

elossio avatar Apr 19 '21 16:04 elossio

Não estou conseguindo juntar as tabelas ;-; muito menos converter elas para mysql... Alguem poderia me ajudar em algum desses fatores por favor?

@juanfariasdev Você está pensando em fazer um merge das tabelas CSV antes importá-las de uma só vez para o banco? Passa pra gente os seus passos até agora desde o download do site da SRF. Alterei um script em python DownloadCNPJ.py para baixar os arquivos. Você vai notar que alguns dados precisam de tratamento antes de carregá-los para o seu SGDB. Estou usando encoding WIN1252 na importação dos arquivos CSV para o PostGreSQL. Eu costumo fazer a importação individual de cada tabela CSV para acompanhamento dos erros gerados na extração para depois fazer um tratamento antes da carga no banco.

elossio avatar Apr 19 '21 17:04 elossio

Sqlite DB que eu gerei com base nos arquivos liberados em 19/4/21 (extraidos em 10/4/21)

https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210410.db.zip https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210410.db.md5 https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210410.db.diagrama.png

A tabela de socios melhorou, agora so tem 2.104 socios sem nome Infelimente continua o problema de nome de socio errado

@buzios, você chegou a notar duplicatas na tabela estabelecimentos? Na minha tabela, a chave primária é composta de cnpj, cnpj_ordem e cnpj_dv, o que me permitiu constatar duplicatas.

elossio avatar Apr 19 '21 18:04 elossio

@buzios, você chegou a notar duplicatas na tabela estabelecimentos? Na minha tabela, a chave primária é composta de cnpj, cnpj_ordem e cnpj_dv, o que me permitiu constatar duplicatas.

Não vejo motivo para incluir cnpj_dv na chave primaria. DV é consequencia do cnpj_base + cnpj_ordem. Faz sentido validar o DV antes de inserir na tabela.

Quanto a sua pergunta, sim tive alguns erros de constraint a saber: EMPRECSV 10522835 38066899 UNIQUE constraint 12114632 razao_social em branco

ESTABELE 38066899 10522835 UNIQUE constraint

SIMPLCSV 24417449 24539162 30721933 30728066 30760363 30847991 30857441 30886793 30972017 UNIQUE constraint

Os erros acima não deveriam existir porem em se trantando de orgão publico fazendo a coisa com ma vontade ....

O pior porem continua a tabela de socios. 2.104 nomes em branco

Um monte de socio com nome errado. Exemplo: CNPJ 38338022000139 5 socios com a mesma razao social e CNPJs diferentes

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 34818670000131

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 31122052000164

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 34612852000151

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 22731799000129

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 24692744000182

buzios avatar Apr 19 '21 22:04 buzios

@buzios, você chegou a notar duplicatas na tabela estabelecimentos? Na minha tabela, a chave primária é composta de cnpj, cnpj_ordem e cnpj_dv, o que me permitiu constatar duplicatas.

Não vejo motivo para incluir cnpj_dv na chave primaria. DV é consequencia do cnpj_base + cnpj_ordem. Faz sentido validar o DV antes de inserir na tabela.

Quanto a sua pergunta, sim tive alguns erros de constraint a saber: EMPRECSV 10522835 38066899 UNIQUE constraint 12114632 razao_social em branco

ESTABELE 38066899 10522835 UNIQUE constraint

SIMPLCSV 24417449 24539162 30721933 30728066 30760363 30847991 30857441 30886793 30972017 UNIQUE constraint

Os erros acima não deveriam existir porem em se trantando de orgão publico fazendo a coisa com ma vontade ....

O pior porem continua a tabela de socios. 2.104 nomes em branco

Um monte de socio com nome errado. Exemplo: CNPJ 38338022000139 5 socios com a mesma razao social e CNPJs diferentes

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 34818670000131

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 31122052000164

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 34612852000151

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 22731799000129

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 24692744000182

@buzios Aviso quando concluir a importação da tabela SOCIOCSV. Até agora os erros de constraints são os mesmos. Creio ser possível informar os erros aos responsáveis pela extração. Possivelmente, esta tarefa seja executada pelo SERPRO.

elossio avatar Apr 19 '21 23:04 elossio

Problemas na tabela de socios de 10/4/21

Ha 20.333.422 registros na tabela sendo 405.000 socios PJ

393.756 socios PJ estao com o nome (razao social no caso) ERRADO.

buzios avatar Apr 20 '21 01:04 buzios

Notei um outro problema. Trata-se do PORTE da empresa.

O novo layout: (2021) 1 – NÃO INFORMADO 2 - MICRO EMPRESA 3 - EMPRESA DE PEQUENO PORTE 5 - DEMAIS

No layout antigo (2020) 0 – NÃO INFORMADO 1 - MICRO EMPRESA 3 - EMPRESA DE PEQUENO PORTE 5 - DEMAIS

Não ha nenhum registro com codigo 2 Ha varios registros com codigo 0 Aparentemente continua a ser usado esquema de 2020

buzios avatar Apr 20 '21 23:04 buzios

Olá, disponibilizei uma ferramenta em Python para importar o novo formato em CSV dos arquivos da receita: https://github.com/lucasfacchini/open-data-cnpj-import

Nesse repositorio está contido um script para download e descompactaçāo dos dados, bem como o importador para BD MySQL.

lucasfacchini avatar May 01 '21 11:05 lucasfacchini

Saiu hoje atualizacao dos arquivos de CNPJ. A data dos arquivos CSV é 12/5/2021 Eu fiz o download e unzipei todos os arquivos. Todos os arquivos estao integros.

buzios avatar May 13 '21 19:05 buzios

Legal. Alguém sabe se a informação de país dos sócios estrangeiros está constando? Ela existia nas primeiras versões, mas não parecia confiável.

Denis

Em 13 de mai de 2021, à(s) 21:29, Marcio Almeida @.***> escreveu:

 Saiu hoje atualizacao dos arquivos de CNPJ. A data dos arquivos CSV é 12/5/2021 Eu fiz o download e unzipei todos os arquivos. Todos os arquivos estao integros.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

k0al4 avatar May 13 '21 19:05 k0al4

Oi Pessoal bom dia.

como faço para coletar dados contendo email e telefone?

rafaelotorres avatar May 15 '21 12:05 rafaelotorres

Saiu atualizacao Data da última extração: 16/07/2021

Todos os arquivos estao OK. Baixei todos e "unzipei".

buzios avatar Jul 20 '21 22:07 buzios

No site tambem diz que mensalmente o governo vai atualizar a base. Alguém sabe dizer como é isso? Eles vão adicionar arquivos mensalmente? Ou vão incrementar no último arquivo ou vão jogar no meio e teremos que todo mês baixar tudo?

hugoramos avatar Apr 01 '22 00:04 hugoramos