Projet-Pandas

La bibliothèque pandas

La bibliothèque pandas va nous permettre d’effectuer plus de tâches sur les fichiers CSV que les commandes incluses dans la bibliothèque csv. Pour pouvoir utiliser cette bibliothèque, il faudra probablement l’installer. Pour cela ouvrir cmd de windows, se placer dans votre répertoire Python à l’aide de la commande cd (change directory) puis, le dossier Scripts (le dossier qui contient pip) et taper la commande: pip install pandas. Si vous avez installé Anaconda et que vous êtes sous Jupyter, pandas est probablement installé, si non, tapez juste pip install pandas.

Nous allons voir comment retrouver rapidement un élèment dans un fichier csv. A noter que pour afficher toute une colonne ou ligne d’un fichier csv, la bibliothèque pandas n’est pas utile.

On pourrait aussi ne pas utiliser la bibliothèque pandas et programmer nous même ces recherches. Tout d’abord parce que les bibliothèques sont programmées en python et qu’en plus c’est réalisable à notre niveau. Il suffit de mettre le fichier csv dans une liste de liste, ou liste de dictionnaires

Les camarades se demandent souvent « A quoi bon coder quelque chose qui existe déjà? ». La réponse est pour moi évidente. Toutes ces bibliothèques et même certaines commandes python sont d’excellents pretextes pour travailler dans un contexte simple des notions capitales pour avoir de bonnes bases en informatique: supprimer un élèment d’une liste, trier une liste, etc…car viendra un jour où vos données seront probablement plus complexes que de simples nombres et aucune procédure de tri ne sera déjà créée…vous n’aurez pas le choix!

L’utilisation des données en table étant très largement répandue, une bibliothèque spécialisée s’est développée et imposée dans le monde de python Pandas

Cette libraire va grandement nous faciliter la lecture et l’utilisation des données

Lecture d’un fichier CSV

Par exemple la lecture csv à partir d’un Fichier ou l’on met le nom du fichier , on utilise ici la:

Exploration des données

On peut lire le fichier csv en précisant l’encodage et le type de séparateur.

On peux le vérifier en demandant le type de l’objet poudlard que l’on va créer :

On peux afficher l’objet poudlard , (5) lignes sont affichées par défaut avec la fonction head().

Avec Pandas on peux afficher la ligne d’informations que l’on veux exemple :

Si je veux accéder au contenu de la 1er Ligne je dois rentrer ceci :

On peut sélectionner la colonne avec son indice

Recherche et ajout de données manquantes

La Fonction isnull() permet de rechercher les données manquantes. On peut ajouter head() pour limiter l’affichage à 5 lignes .

Hack Moyenne

Fichiers Requis :

Contexte :

Deux élèves ont abusé de leurs pouvoirs en supprimant leurs moyennes ou en modifiant la moyenne générale. vous disposez du fichier csv ci-dessus . Les deux élèves sont renvoyés du lycée. On doit trouver les deux lignes modifiées (filtrer ) et les supprimer.

On commence par lire le fichier :

On peut remarquer qu’un élève n’a pas de moyenne. Recherchons le ensemble .

NaN  correspond aux données manquantes « Not a Number »

On peut s’apercevoir qu’une des moyennes est égale à 20 ceci et très suspect . On peut la rechercher aussi avec :

On a retrouvé le suspect !

https://colab.research.google.com/drive/1KOaPAvcZUobgId3tRBi_Z0xijhb16aej?usp=sharing

Voici le corrigé : https://colab.research.google.com/drive/1DfLkhxq3vjwxGH9FCMLk72FCQVpOQxP0?usp=sharing

Aucune réponse

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *