Skip to content

Ce script construit ou enrichit un fichier CSV de votre choix. Il combine différentes sources de texte (par exemple des messages en wolof, ou des données collectées ailleurs) pour créer une colonne principale appelée "texte".

Notifications You must be signed in to change notification settings

Atinkene/DatasetBuilder

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

DatasetBuilder

🧠 Wolof Sentiment Annotation Pipeline

Ce projet propose un pipeline complet d'extraction, de nettoyage et d'annotation automatique de textes en wolof pour l'analyse de sentiments.

📦 Contenu du dépôt

  • DatasetBuilder.py : Script Python pour extraire, filtrer et nettoyer les messages depuis des fichiers .txt, .csv ou .xlsx.
  • dataset.csv : Fichier de sortie contenant les textes en wolof nettoyés, prêts à être annotés.
  • notebook_kaggle.ipynb : Notebook exécuté sur Kaggle avec GPU pour l’annotation automatique.

⚙️ Fonctionnement du Pipeline

1. Prétraitement avec DatasetBuilder.py

Le script :

  • Supprime les messages en français et en anglais.
  • Nettoie les messages (numéros, balises HTML, emojis, noms sénégalais...).
  • Gère plusieurs formats d'entrée (WhatsApp .txt, .csv, .xlsx).
  • Produit un fichier dataset.csv avec une colonne texte.

2. Annotation Automatique sur Kaggle

Le notebook :

  • Utilise deux modèles Hugging Face :
    • nlptown/bert-base-multilingual-uncased-sentiment
    • cardiffnlp/twitter-xlm-roberta-base-sentiment
  • Chaque texte est traité 3 fois par modèle (variation originale, ponctuée, majuscule).
  • Résultats stockés dans 6 colonnes annotation1 à annotation6.
  • Vote majoritaire pour déterminer le sentiment final.

🔢 Répartition des sentiments finaux

Sentiment Nombre Pourcentage
Négatif 67 834 73.6 %
Positif 15 129 16.4 %
Neutre 9 223 10.0 %

📁 Données & Résultats

📜 Licence

Ce projet est proposé à des fins académiques et expérimentales.


Contact : Massina sur Kaggle

About

Ce script construit ou enrichit un fichier CSV de votre choix. Il combine différentes sources de texte (par exemple des messages en wolof, ou des données collectées ailleurs) pour créer une colonne principale appelée "texte".

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages