This repo is dedicated to host all files related to the training and use of our ML model.
Este projeto foi criado usando variaveis de ambiente virtual python, voce deve criar o seu .venv e instalar as dependencias necessárias para poder executar este projeto.
Na raiz do projeto execute:
python3 -m venv venv
Na raiz do projeto execute:
source .venv/bin/activate
Na raiz do projeto execute:
pip3 install -r requirements.txt
Na raiz do projeto execute:
deactivate
.
├── LICENSE
├── README.md
├── requirements.txt
└── src
├── data
│ └── NoThemeTweets.csv
├── environment.yml
├── models
│ ├── dtrUCV_model.pkl
│ ├── dtrUIDF_model.pkl
│ ├── mnbUCV_model.pkl
│ ├── rfcUCV_model.pkl
│ └── rfcUIDF_model.pkl
├── notebooks
│ └── 00_One_sentiment_analysis_model.ipynb
├── One_sentiment_analysis_model
└── scripts
└── string_analysis.py
Os arquivos relacionados ao projeto em si estao organizados na pasat src, arquivos de documentacao e adjacentes devem estar em um nivel acime fora da do diretorio src.
Neste diretorio estao os notebooks utilizados para tratar os dados(ETL) e treinar o nosso modelo.
Este diretorio contem os arquivos fontes (datasets) utilizados no treinamento do modelo.
-[IMPORTANT] *este diretorio esta exluido do versionamento pelo .gitignore pois os aruivos raw do dataset sao muito grandes para serem salvos no github. Voce deve baixar o dataset direto do kaggle e extrair o dataset NoThemeTweets.csv neste diretorio.
Este diretorio contem os arquivos serializados resultado do treinamento dos modelos.
Este diretorio contem qualquer scripts utilizados no projeto.
Este diretorio é o diretorio main do projeto, onde deve estar os arquivos principais do projeto que utilizarao o modelo treinado.
-
Notebook (Jupyter/Colab) do time de Data Science contendo:
-
Exploração e limpeza dos dados (EDA);
-
Transformação dos textos em números com TF-IDF; -
Treinamento de modelo supervisionado (ex.: Logistic Regression, Naive Bayes); -
Métricas de desempenho (Acurácia, Precisão, Recall, F1-score);
-
Serialização do modelo (joblib/pickle).
Cada equipe deve escolher ou montar seu próprio conjunto de dados de comentários, avaliações ou postagens que possam ser usados para análise de sentimento (ex.: reviews públicos, tweets, avaliações de produtos etc.).
-
use Python, Pandas para ler/limpar dados;
-
crie um modelo simples (TF-IDF + LogisticRegression do scikit-learn);
-
salve o pipeline e o modelo com joblib.dump.
-
Coloque tudo em um notebook bem comentado.
Recomendamos definir desde o início o formato JSON de entrada e saída. Segue um exemplo:
{"text": "…"} →
{
"previsao":"Positivo",
"probabilidade":0.9
}
Para referencia de que padrao este repositorio segue veja aqui: