Este projeto tem como objetivo treinar um modelo de linguagem baseado no GPT-2 para geração de texto em português, utilizando obras de Machado de Assis como corpus principal. A arquitetura foi adaptada para tarefas de geração com avaliação qualitativa e checkpoints salvos ao longo do treinamento.
deeplearning-final/
├── notebooks/ # Notebooks de experimentação e visualização
├── scripts/ # Scripts de ingestão e pré-processamento
├── src/
│ ├── gpt_2/ # Arquitetura customizada do modelo
│ └── utils/ # Funções auxiliares
├── train/ # Loop de treinamento e avaliação
├── data/ # Corpus limpo e dividido
├── checkpoints/ # Modelos salvos por época
├── logs/ # Logs de treinamento
├── requirements.txt # Dependências do projeto
└── README.md # Este arquivo
O treinamento está sendo realizado em um notebook do Kaggle, aproveitando os recursos gratuitos de GPU. Para reproduzir:
- Acesse o notebook no Kaggle
- Execute as células na ordem para:
- Baixar e limpar os dados
- Inicializar o modelo
- Treinar e salvar checkpoints
Instale os pacotes necessários com:
pip install -r requirements.txt
Principais bibliotecas:
- torch – Treinamento do modelo
- tiktoken – Tokenização eficiente
- requests, tqdm – Download e progresso
- transformers – Base para o GPT-2
Os textos foram extraídos do Projeto Gutenberg e processados para remover metadados, normalizar pontuação e dividir em parágrafos com tamanho mínimo.