Ce rapport présente le travail effectué par le groupe 5 pour le projet de l’UE IF29 - Traitement de données (Data Analytics). L’objectif de ce projet est d’implémenter sur un même dataset et pour une même problématique une approche non supervisée et une approche supervisée et d’en faire le comparatif de Machine learning.
Le dataset en question est un ensemble de tweets et toutes leurs métadonnées ayant été posté entre le 14 juin 2018 et le 17 juin 2018 (les quatres premiers jours de la dernière coupe du monde de football). Mais que faire avec tous ces tweets ? Le but du projet est d’implémenter deux algorithmes de Machines Learning permettant la détection des profils profils twitter “atypique”. Ici pour le sens du mot “atypique” il faut comprendre “qui ne répond pas au type habituel” et non “que l'on peut difficilement classer”, le but du projet étant de déterminer cette classe grâce à des algorithmes de Machine Learning.
“Qui ne répond pas au type habituel”, est une définition qui peut englober beaucoup de profils twitter et cela pour un grand nombre de raisons. Pour ne pas nous disperser et pouvoir identifier ces profils “atypiques” rapidement et sans ambiguïtés, nous avons décidé de préciser quelque peu ce “atypique” en “influenceur”. Il sera donc question de détecter les leaders d’opinion de twitter, d’identifier les profils qui ont une influence sur les internautes qui le suivent et sur leurs décisions (d’achat entre autres). On pourrait par exemple imaginer être une agence de publicité cherchant à obtenir un échantillon des meilleurs profils pouvant permettre de promouvoir un produit.
- Visibilité (pour chaque tweet de chaque utilisateur) cf.fichier “SPOT”
- Ratio entre nombre de friends et followers
- nombre moyen de favourites obtenus de chaque tweet
- fréquence de tweets publiés depuis la création du compte avec t0=01/01/2019
Notre première approche de ML fût une approche non-supervisée. Cette approche désigne la situation d'apprentissage automatique où les données ne sont pas étiquetées. Il s'agit donc de découvrir les structures sous-jacentes à ces données non étiquetées. Puisque les données ne sont pas étiquetées, il est impossible à l'algorithme de calculer de façon certaine un score de réussite.
Après la préparation des données, nous labélisons des données sur les quatre attributs dérivés en utilisant la méthode d’entropie(Shannon entropy method), ensuite nous comptons la fréquence de ‘Note’ et calculons son pourcentage cumulé(basé sur Principe de Pareto) Et puis nous extrayons un cinquième des données données comme le dataset pour l’approche supervisée. Nous choisissons la machine à vecteurs de support vue en cours comme classificateur. Après avoir formé le modèle, nous évaluons les résultats et améliorons les paramètres pour obtenir une plus grande précision.
Enfin, nous utilisons le modèle paramétré pour prédire le reste des données et comparons les résultats entre 2 approches.