Este projeto tem como objetivo extrair, transformar e carregar dados dos links do Portal de Dados Abertos do Governo Federal para o banco de dados do projeto ETL Python - Dados Abertos Governo Federal - Gestão de Pessoas. Este é o link fonte com todos os dados em formato .ods: Portal de Dados Abertos do Governo Federal - Gestão de Pessoas
Para este projeto, utilizarei o banco de dados PostgreSQL estanciado no site render.com
Essa será a estrutura do banco de dados, modelagem star schema simples:
- Python
- PostgreSQL
- Power BI (para aplicação dos Kpis)
O projeto ainda está em desenvolvimento, e os dados do Portal de Dados Abertos do Governo Federal estão sendo atualizados constantemente, logo, é importante manter o projeto atualizado para não perder dados importantes. Além disso, são diversos arquivos ods em links de períodos diferentes, logo preciso analisar se crio somente um etl para todos os dados ou faço um etl para cada período.
- Estruturação do projeto - OK
- Modelagem do DW, criação das tabelas no banco de dados PostgreSQL - OK
- Extrações dos arquivos - OK
- Validação dos dados via contrato - OK
- Testes - Em andamento
- Na fase de extração do link/site do dados abertos (28/10), já realizada e testada a extração dos dados via csv, visto que os arquivos excel/ods tem mais de uma aba de informações e importa para este projeto somente uma aba.
- Houve muita necessidade de criar script dinamico, visto que links base, formatos de arquivos e até nomes de abas tem diferenças.
- São mais de 70 arquivos que serão extraídos do Excel para diretório local em formato csv.