Vous trouverez des Datasets dans diverses catégories. Toutes les catégories sont accessibles via le menu en dessous de cette introduction. Les Datasets sont tous open sources et gratuits, et ne nécessitent aucune autorisation. Pour l'ouverture des datasets avec python voici un petit tuto qui montre comment les ouvrir en fonction des types de fichiers.
- Classification
- Regression
- Physique
- Climat
- Human Progress
- USA government datasets
- Grosse base de datasets
- Kaggle
- Hugging Face
- Google Dataset search
import xarray as xr
ds = xr.open_dataset('your/path/dataset.nc4')
df = ds.to_dataframe()
import pandas as pd
df = pd.read_csv('your/path/dataset.csv') # delim_whitespace=True si colonnes séparés par des espaces
import pandas as pd
df = pd.read_excel('your/path/dataset.xls(x)') # delim_whitespace=True si colonnes séparés par des espaces
import pandas as pd
df = pd.read_csv('your/path/dataset.tsv', delimiter="\t")
import pandas as pd
df = pd.read_csv('your/path/dataset.txt', delimiter="\t", header = None)
import numpy as np
# Il faut spécifier le nom des colonnes et choisir le bon séparateur
df = pd.read_table('your/path/dataset.dat', names=['x1','x2','x3'], sep=',' ,encoding='utf-8')
Aperçu du dataset (173 Mb) :
Il est composée de 5749 dossiers, qui contiennent chacun une ou plusieurs images d'une même personne. Par exemple ci-dessus le dossier Matt_Damon.
Aperçu du dataset title.ratings.tsv :
Il y a 7 datasets tsv disponibles, les données sont mises à jour tous les jours.
Aperçu du dataset complet :
Le dataset est détaillé dans le fichier header, dat1 et dat2 correspondent aux coordonnées des points x, y et class à la classe. Exemple de plot des bananes par classe :
Aperçu :
Aperçu :
Le dataset renseigne sur la profondeur, les coordonnées géographiques et l'intensité sur l'échelle de Richter.
Exemple de plot en coloriant suivant l'intensité:
Aperçu du dataset depuis le "Link1" du tableau :
C'est un fichier texte qu'on manipule avec pandas comme ceci :
df = pd.read_csv('your/path/SMSSpamCollection.txt', header = None, delimiter='\t')
df.columns =['type', 'sms']
df['type']=df['type'].astype(str)
df['sms']=df['sms'].astype(str)
Aperçu des 5 premières colonnes sur 85 :
Il a un dataset par année, pour accéder aux datasets il faut aller tout en bas de la page. Puis dans chaque dossier de chaque année il y a un fichier csv par jour.
Aperçu du dataset food_calorie_conversion_factor.csv du fichier "April 2021 (CSV – 216M)" :
Le fichier contient 35 Datasets csv qui sont tous détaillés dans le pdf joint avec.
Aperçu :