RÉALISER UN TRAITEMENT BIG DATA DANS UN ENVIRONNEMENT CLOUD

Projet realisé en août 2024 dans le cadre de ma formation Data Scientist avec CentraleSupélec/OpenClassrooms.

Objectif du projet

L’entreprise "Fruits!" est une très jeune start-up de l'AgriTech qui cherche à proposer des solutions innovantes pour la récolte de fruits. La volonté de l’entreprise est de préserver la biodiversité et de permettre des traitements spécifiques à chaque variété en développant des robots-cueilleurs intelligents ; elle souhaite dans un premier temps se faire connaître en mettant à disposition du grand public une application mobile qui permettrait aux utilisateurs de prendre en photo un fruit et d'obtenir des informations sur ce fruit. L'objectif pour la start-up est de sensibiliser le grand public à la biodiversité des fruits et de mettre en place une première version d'un moteur de classification des images de fruits dans un environnement Big Data sur le cloud pour alimenter sa flotte de robots-cueilleurs. Une augmentation significative du volume de données étant anticipée très rapidement après la livraison du moteur de classification, il est nécessaire de mettre en place une architecture Big Data élastique (AWS EMR, S3, IAM) utilisant PySpark. Le respect des contraintes du RGPD sera assuré par un paramétrage de l'installation qui garantit l'utilisation de serveurs situés sur le territoire européen, tout en assurant une gestion optimale des coûts.

Liste des fichiers

Les données-source sont disponibles sur https://www.kaggle.com/datasets/moltean/fruits ou en téléchargement direct sur https://s3.eu-west-1.amazonaws.com/course.oc-static.com/projects/Data_Scientist_P8/fruits.zip.

fichiers :
- notebook_1.ipynb : code Python permettant l'import des fichiers .png et le test du code de transfer learning en local (environnement Windows 10), afin de minimiser les coûts d'utilisation du cluster EMR
- notebook_2.ipynb : code Python transposant le code du notebook_1.ipynb dans l'environnement big data sur AWS EMR
- bootstrap_EMR_v700.sh : fichier de bootstrap pour le cluster EMR
- slideshow.pdf : diapositives de présentation du projet

Compétences développées

Modéliser des données dans un environnement Big Data et en utilisant les outils du Cloud
Réaliser des calculs distribués sur des données massives en utilisant les outils adaptés
Sélectionner les outils du Cloud permettant de traiter et stocker des données Big Data

Langages & software

Python 3.9.13

Voir requirements.txt pour la liste complète des librairies & packages.

MENTIONS LÉGALES

Cette étude a été produite par CelineBoutinon sur la base du jeu de données Fruits-360 dataset sur Kaggle (https://www.kaggle.com/datasets/moltean/fruits). Le jeu de données est fourni « tel quel » et est hébergé sur Kaggle à des fins de recherche et d’éducation ; son utilisation est soumise aux conditions générales de Kaggle ainsi qu’aux termes de la license CC BY-NC-SA 4.0 disponible sur https://creativecommons.org/licenses/by-nc-sa/4.0/. Les utilisateurs des données sont responsables de l’utilisation qu’ils en font et les analyses présentées ici restent la responsabilité seule de l'auteure. Pour plus de détails, veuillez consulter les conditions d’utilisation sur https://www.kaggle.com/terms et https://www.kaggle.com/docs/datasets#licensing.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
bootstrap_EMR_v700.sh		bootstrap_EMR_v700.sh
logo.PNG		logo.PNG
notebook_1.ipynb		notebook_1.ipynb
notebook_2.ipynb		notebook_2.ipynb
requirements.txt		requirements.txt
slideshow.pdf		slideshow.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RÉALISER UN TRAITEMENT BIG DATA DANS UN ENVIRONNEMENT CLOUD

Objectif du projet

Liste des fichiers

Compétences développées

Langages & software

MENTIONS LÉGALES

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

RÉALISER UN TRAITEMENT BIG DATA DANS UN ENVIRONNEMENT CLOUD

Objectif du projet

Liste des fichiers

Compétences développées

Langages & software

MENTIONS LÉGALES

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages