Este projeto explora a utilização do DuckDB com ênfase em processamento e persistência de dados, aproveitando a plataforma MotherDuck. O desenvolvimento foi feito utilizando um Jupyter Notebook, com o intuito de tornar a implementação fácil de entender e reproduzir.
O notebook é estruturado em seções curtas que facilitam o aprendizado e a execução do código. Cada seção aborda um aspecto específico do projeto, desde a configuração inicial até a persistência de dados, com especial destaque para as capacidades da plataforma MotherDuck.
Sinta-se à vontade para clonar, adaptar e ajustar o projeto conforme necessário. Consulte as instruções abaixo, se precisar. 👽
Este projeto foi desenvolvido utilizando o Poetry + Pyenv para gerenciamento de ambientes virtuais e bibliotecas.
- duckdb = (v0.9.2)
- python-dotenv (v1.0.1)
Você pode instalar as dependências manualmente, ou, utilizando o Poetry ou o Pip com os seguintes comandos:
poetry install
pip install -r requirements.txt
Para utilizar DuckDB com MotherDuck, é imprescindível usar a versão 0.9.2 do duckdb.
- Necessário conta no MotherDuck.
- Copie o
Token
disponibilizado em Settings. - Crie um arquivo
.env
na pastaconfig
e salve nele a seguinte linha:motherduck_token=token_copiado
- Substitua o
token_copiado
pelo Token copiado.
Agora você estará pronto para explorar os limites MotherDuck.
Após persistirmos os dados da "stg" no MotherDuck, indico você montar e executar as querys diretamente na plataforma, ao invés de usar o Jupyter.
- A documentação pode não estar tão detalhada, talvez seja necessário um certo nível de conhecimento para adaptar o código.
- Esta disponível um arquivo de teste na pasta
data/input
, caso queira utilizá-lo. - O DuckDB e o MotherDuck possuem uma das documentações mais incríveis e fáceis de entender que já vi.
- É muito fácil se conectar e persistir informações.
- Permite o compartilhamento de bases de dados com outras pessoas, o que torna a experiência ainda mais incrível.