Ce projet propose un pipeline complet d'extraction, de nettoyage et d'annotation automatique de textes en wolof pour l'analyse de sentiments.
DatasetBuilder.py: Script Python pour extraire, filtrer et nettoyer les messages depuis des fichiers.txt,.csvou.xlsx.dataset.csv: Fichier de sortie contenant les textes en wolof nettoyés, prêts à être annotés.notebook_kaggle.ipynb: Notebook exécuté sur Kaggle avec GPU pour l’annotation automatique.
Le script :
- Supprime les messages en français et en anglais.
- Nettoie les messages (numéros, balises HTML, emojis, noms sénégalais...).
- Gère plusieurs formats d'entrée (WhatsApp
.txt,.csv,.xlsx). - Produit un fichier
dataset.csvavec une colonnetexte.
Le notebook :
- Utilise deux modèles Hugging Face :
nlptown/bert-base-multilingual-uncased-sentimentcardiffnlp/twitter-xlm-roberta-base-sentiment
- Chaque texte est traité 3 fois par modèle (variation originale, ponctuée, majuscule).
- Résultats stockés dans 6 colonnes
annotation1àannotation6. - Vote majoritaire pour déterminer le sentiment final.
| Sentiment | Nombre | Pourcentage |
|---|---|---|
| Négatif | 67 834 | 73.6 % |
| Positif | 15 129 | 16.4 % |
| Neutre | 9 223 | 10.0 % |
- 🔗 Google Drive (CSV & sorties) : Accéder au dossier
- 📊 Kaggle Notebook : Voir sur Kaggle
Ce projet est proposé à des fins académiques et expérimentales.
Contact : Massina sur Kaggle