Diagramme en violon
Un diagramme en violon (de l'anglais violin plot) est un graphique statistique permettant de comparer des distributions de probabilité. Il est similaire à un diagramme en boîte, auquel s'ajoute un diagramme de densité du noyau pivoté de chaque côté[1].
Histoire
Le diagramme en violon a été introduit, en 1997, par Jerry L. Hintze et Ray D. Nelson, comme un outil plus complet et précis que les diagrammes en boîte, créés par John Tukey en 1977[2]. Leur nom provient de leur ressemblance grossière avec un violon[2].
Création
Les diagrammes en violon sont similaires aux boîtes à moustaches, à la différence qu'ils affichent également la densité de probabilité des données à différentes valeurs, généralement lissée par un estimateur de densité à noyau. Un diagramme en violon inclut toutes les données qui le composent : un marqueur pour la médiane des données ; une boîte ou un marqueur indiquant l'écart interquartile ; et éventuellement tous les points d'échantillonnage, si le nombre d'échantillons n'est pas trop élevé.
Alors qu'un diagramme en boîte présente des statistiques récapitulatives telles que la moyenne, la médiane et les écarts interquartiles, le diagramme en violon permet de connaître la distribution complète des données. Il peut être utilisé avec des données multimodales (c'est-à-dire, ayant plus d'un pic). Dans ce cas, il montre la présence des différents pics, leur position et leur amplitude relative.
Usages
Comme les diagrammes en boîte, les diagrammes en violon sont utilisés pour représenter la comparaison d'une distribution variable (ou distribution d'échantillons) entre différentes « catégories » (par exemple, la distribution de température comparée entre le jour et la nuit, ou la distribution des prix des voitures comparée entre différents constructeurs automobiles).
Un diagramme en violon peut comporter plusieurs couches. Par exemple, la forme extérieure représente tous les résultats possibles. La couche suivante, à l'intérieur, peut représenter les valeurs observées 95 % du temps. La couche suivante (si elle existe) à l'intérieur peut représenter les valeurs observées 50 % du temps.
Les graphiques en violon sont moins populaires que les boîtes à moustaches, et peuvent être plus difficiles à comprendre pour les lecteurs qui ne les connaissent pas. Dans ce cas, une alternative plus accessible consiste à tracer une série d'histogrammes empilés ou de graphiques de densité de noyau.
Voir aussi
Références
- ↑ « Violin Plot », NIST DataPlot, National Institute of Standards and Technology,
- (en) Hintze et Nelson, « Violin Plots: A Box Plot-Density Trace Synergism », The American Statistician, vol. 52, no 2, , p. 181–184 (ISSN 0003-1305, DOI 10.1080/00031305.1998.10480559, lire en ligne )
- Module complémentaire Vioplot pour Stata
- Violinplot à partir d'un ensemble de données de forme large avec la bibliothèque de visualisation statistique Seaborn basée sur matplotlib
- Portail des probabilités et de la statistique