Fork do CNPJ-SQLITE.
Script em python para carregar os arquivos de cnpj dos dados públicos da Receita Federal em formato SQLite.
A partir de 2021 os dados da Receita Federal estão disponíveis nesse link (ou direto aqui no servidor de arquivos) em formato .CSV separados em arquivos .ZIP.
| Linguagem | Gerenciador de pacotes | Bibliotecas | Sistema Operacional | Utilitários |
|---|---|---|---|---|
| Python 3.8 (ou versão maior) | Poetry | Loguru, SQLAlchemy, Dask e Pandas | GNU/Linux ou Mac OS* | Axel e SQLite. |
* Para executar o arquivo download_data.sh (apesar que acredito que possa funcionar no WSL e/ou Cygwin do Windows).
| Processador | Armazenamento | RAM |
|---|---|---|
| i3 (ou superior) | Espaço livre de no mínimo de 60 GB. | 8 GB (ou superior) |
Baixe todos os arquivos utilizando o script download_data.sh.
No Terminal Linux com o Bash deverá ser o comando:
$ ./download_data.sh
Vale ressaltar que apesar de estar sendo utilizado um gerenciador de downloads, o download total do arquivo ainda poderá demorar, e no momento da descompreensão dos arquivos a máquina pode ficar irresponsiva, devido a quantidade de dados.
Primeiro ative o ambiente virtual do Poetry:
$ poetry shell
Caso não tenha eexecutado ainda o install das dependências, chame:
$ poetry install
E depois no terminal chame o script:
$ ./data_to_sqlite.py
Para geração de arquivo JSON execute o arquivo data_to_json.sh:
$ ./data_to_json.sh
versão 0.2 (dezembro/2021)
- Refatoramento e melhorias do código, por Jean Landim.
- Adição de script SQL para converter algumas tabelas para JSON
versão 0.1 (julho/2021)
- primeira versão
A versão original desse repositório encontra-se CNPJ-SQLITE e sinceros agradecimentos ao usuário rictom, autor original do repositório. Lá também geralmente o arquivo SQLite já tratado.