Ce projet permet d'analyser des tweets à partir d'un fichier JSON. Il inclut des fonctionnalités de nettoyage, de traitement et d'analyse des données, ainsi que de visualisation des résultats sous forme de graphiques.
Avant d'exécuter le script, vous devez installer les bibliothèques suivantes :
pandas: pour la gestion des données sous forme de DataFrame.matplotlib: pour la visualisation des résultats sous forme de graphiques.re: pour le traitement des expressions régulières (inclus par défaut dans Python).json: pour le traitement des fichiers JSON (inclus par défaut dans Python).textblob: pour l'analyse de sentiment et de texte (si nécessaire pour l'extraction de sujets supplémentaires).Counter: pour compter les hashtags, mentions, et autres éléments (inclus danscollections, qui fait partie de Python).
Installez les packages nécessaires avec pip en exécutant la commande suivante dans votre terminal ou votre environnement virtuel :
Le script effectue les tâches clés suivantes :
1. Données Externes (Chargement des Tweets)
- Chargement des tweets depuis un fichier JSON.
- Le fichier est chargé via la méthode load_tweets().
2. Prétraitement des Données (Nettoyage des Tweets)
- Suppression des caractères spéciaux et des emojis dans les tweets.
- Utilisation de la méthode supp_car_spe() pour nettoyer le texte.
3. Création d'Objets (Objets de Tweets)
- Chaque tweet est représenté par un objet dans la liste self.tweets.
- La méthode clean_tweets() applique le nettoyage sur chaque tweet.
4. Traitement de Données et Stockage (Analyse des Tweets)
- L'analyse des tweets consiste à extraire des informations comme les hashtags, les mentions et les sujets en utilisant identifier_topics().
- Les tweets analysés sont stockés dans la liste self.tweets_analyse.
5. Analyse de Données (Extraction de Hashtags, Mentions, et Sujets)
- Extraction des hashtags avec la méthode get_top_k_hashtags().
- Extraction des utilisateurs les plus actifs avec get_top_k_users().
- Identification des topics avec get_top_k_topics().
6. Visualisation des Résultats (Graphiques)
- Graphiques générés pour les hashtags, utilisateurs, et sujets avec la méthode plot_bar().
- Les graphiques sont créés pour illustrer les résultats de l'analyse.
7. DataFrame de Résultats (Conversion des Tweets Analyzés en DataFrame)
- Les tweets analysés sont convertis en DataFrame pour une manipulation plus facile.
- Utilisation de la méthode to_dataframe() pour créer le DataFrame.
Une représentation visuelle du système InPoDa:
