Accueil » Dataviz » Visualiser les données » Comment bien débuter avec DataWarrior ? [Tuto]
Tuto pour débuter avec Datawarrior

Comment bien débuter avec DataWarrior ? [Tuto]

Comment bien débuter avec DataWarrior ? [Tuto]
4.7 (93%) 20 vote[s]

Connaissez-vous DataWarrior ? Si non je vous propose de découvrir dans ce tutoriel un outil gratuit de data visualisation qui présente parmi ses avantages celui de s’installer localement sous Linux, Mac ou Windows. Vous n’aurez ainsi pas besoin de vous soucier de la confidentialité de vos données.
À l’origine conçu pour visualiser les données chimiques et biologiques, DataWarrior permet en fait d’analyser tous types de données.

Aperçu rapide de l’interface graphique

Installation de DataWarrior

Pour installer DataWarrior, connectez-vous sur http://www.openmolecules.org/datawarrior/download.html et cliquez sur le système d’exploitation de votre ordinateur

Importation des données

Il est possible de récupérer des données à partir d’un fichier .xls, csv ou .txt délimité avec des tabulations, virgules… en les copiant-collant directement dans la fenêtre de DataWarrior. Après avoir copier vos données de votre fichier d’origine, cliquer dans le menu « Edit » sur « Paste ».
Une deuxième méthode consiste dans le menu « File » à ouvrir le fichier localisé sur votre machine en cliquant sur « Open ».

Nous allons tester DataWarrior en utilisant des données mises à disposition sur le site https://www.gapminder.org/.

  • Connectez-vous d’abord sur https://www.gapminder.org/data/
  • Recherchez ensuite « population growth » dans le moteur de recherche et téléchargez le fichier « population_growth_annual_percent.csv » en cliquant sur l’icone d’excel dans la première colonne (attention sur Mac, utilisez le navigateur Safari).
  • Ouvrez le fichier « population_growth_annual_percent.csv » dans DataWarrior en cliquant sur « Open » dans le menu « File ». Ce fichier contient l’évolution de la population en pourcentage par année et pour différents pays.

Rapide coup d’oeil à l’interface de DataWarrior

Après ouverture de notre fichier, on observe 3 grandes zones par défaut dans l’interface de DataWarrior :

  • La table des données en haut à gauche
  • Une zone de filtres en haut à droite
  • Une zone de graphes en bas (fenêtres 2D View et 3D View)

Remarque : dans la table, vous pouvez très facilement trier les colonnes (par ordre alphabétique ou ordre croissant) en cliquant sur leurs en-têtes.

Premiers tests de graphes

Nuage de points

Dans un premier temps, nous allons créer un nuage de points (scatter plot) dans la fenêtre 2D View pour comparer la valeur du taux de croissance entre les pays à une année définie.

  • Le graphe en nuage de points s’affiche par défaut dans la fenêtre View.
  • Dans la zone 2D View, cliquez sur « xyz », puis sur la flèche à droite pour modifier les valeurs des axes des X et des Y.
  • Sélectionnez « Country » (pays) pour l’axe des X (ligne du haut) et une année pour Y (ligne du bas), par exemple 1964.

Boîte à moustache

Pour démontrer la puissance de DataWarrior, je vous propose de réaliser un graphe plus complexe à comprendre : la boîte à moustache. En deux mots, une boîte à moustache est une figure qui résume quelques indicateurs de position du caractère étudié (médiane, quartiles, minimum, maximum ou déciles).

  • Cliquez (clic droit sur la figure) dans la fenêtre 2D View et choisissez dans le menu de « Set Preferred Chart Type » l’option « Box Plot ».
  • Remplacez sur xyz « Country » par « unassigned » pour l’axe des X et laissez l’année 1964 pour l’axe des Y.
  • Avec un clic droit sur la figure, en sélectionnant « Set Statistical View Options », affichez la moyenne et la médiane (cochez « Show mean/median values »), le nombre d’individus (cochez « Show value count N ») ou encore l’intervalle de confiance (cochez « Show confidence interval 95% » et l’écart type (cochez « Show standard deviation »).
  • Diminuez enfin la taille des cercles, en sélectionnant « Set Marker Size » (toujours clic droit sur le graphe) et modifiez différents aspects visuels du graphe (couleur, grille…) en utilisant les options du « Set Graphical View Options »)

Image + graphe

Dans DataWarrior, il est possible d’ajouter une image de fond au graphique pour créer un visuel plus élaboré.

  • Cliquez sur le graphe et sélectionnez « Set Background Image »
  • Avec « Import from file » ou « Import from clipboard », vous pouvez importer un fichier image ou importer un fichier stocké dans votre presse-papier.

Réalisation de graphiques animés

Nous allons maintenant créer une animation à partir de nos données pour visualiser la croissance de la population au fil du temps dans les pays.

Préparation de la table des données

Pour dessiner l’évolution de la croissance de la population pour chaque pays, il faut d’abord faire pivoter notre table de données. Cela va nous permettre par la même occasion de manipuler un peu les données dans DataWarrior. Ne vous inquiétez pas, c’est très facile !

  • Dans le menu « Edit », sélectionnez toutes les données en cliquant sur « Select all »
  • Dans le menu « File », cliquez sur « New From Reverse Pivoting »
  • Il faut maintenant nommer les nouvelles colonnes. Dans « Column name for groups », écrire par exemple « Year » et dans « Column name for data », « Growth »
  • Un nouveau tableau de données s’affiche :

Création d’un filtre

Pour permettre d’animer nos données en fonction des années, nous devons dans un premier temps créer un filtre, c’est à dire en fait un menu déroulant qui va permettre de sélectionner les années.

  • Dans le menu « Edit », cliquez sur « New filter » puis selectionnez « Category Browser »
  • Cliquez sur le signe interdit bleu en haut à droite et choisisses dans « Column », « Year »

Création du nouveau graphe

Nous allons créer notre graphique et ajouter des couleurs aux variables.

  • Cliquez dans la barre bleue au dessus de la table de données (clic droit) puis sélectionnez « Create a New 2D View »
  • Ensuite en cliquant sur xyx, attribuez la valeur « Country » à l’axe des X et « Growth » à l’axe des Y
  • Ajoutez le nom sur les points avec « Set Marker Labels » (clic droit sur le graphe)
  • Colorez les points en fonction de la valeur du taux de croissance avec « Set Marker Color » (clic droit sur le graphe)

Lancement de l’animation

  • Cliquez sur la petite roue en haut à droite et sélectionnez « Start Animation » pour lancer l’animation
  • Vous pouvez réaliser une vidéo du résultat en l’enregistrant avec Quick Time Player par exemple

Nous allons maintenant nous intéresser à la France et souligner sa position dans le graphe en rouge.

  • Dans le menu « Data », cliquez sur « Add Empty Columns » et créez une nouvelle colonne vide en précisant le type « text » et en la nommant « Categorie »
  • Je vous propose une technique semi-automatisée simple en utilisant « Find and Replace ». L’idée est de créer une nouvelle catégorie qui n’est pas présente dans le fichier d’entrée :
    • Créez une colonne contenant une valeur numérique unique : « Add Calculated Values », dans « Please enter a formula », tapez « +0 », entrez le nom d’une nouvelle colonne dans « New column name », par exemple « Categorie ». Nous venons de créer une colonne pleine de « 0 »
    • Sélectionnez toutes les valeurs que vous voulez mettre en évidence en vous aidant de la touche Shift et/ou Command de votre clavier. Par exemple toutes les années de la France.
    • Remplacez les « 0 » de ces lignes sélectionnées par une valeur définie pour les dissocier des autres et les réunir dans une catégorie : dans « Edit », ‘Find and Replace », remplacer les « 0 » par exemple par des « 1 ». Vous pouvez sélectionner ainsi d’autres pays et les inclure dans la même catégorie ou en créer une autre en remplaçant les « 0 » par des « 2 » par exemple.
  • Sélectionnez « Set Marker Shape » avec « Shape by » « Categorie » (clic droit sur le graphe) et changez la couleur du marqueur avec « Set Marker Color » aussi par « Categorie ». Vous pouvez réduire la taille du marqueur avec « Set Marker Size » et ajoutez une ombre avec « Set Marker Background color »

Pour conclure

DataWarrior est un outil de traitement et de visualisation de données puissant créé pour des scientifiques mais accessibles à tous. Dans cet exercice de prise en main rapide, nous n’avons abordé que quelques unes de ses fonctionnalités. Je vous donne rendez-vous pour une nouvelle exploration de ce logiciel dans le tuto comment visualiser des données avec DataWarrior.

Pour aller plus loin

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Me contacter

Natacha Oliveira