Diagramme en violon

Un diagramme en violon (de l'anglais violin plot) est un graphique statistique permettant de comparer des distributions de probabilité. Il est similaire à un diagramme en boîte, auquel s'ajoute un diagramme de densité du noyau pivoté de chaque côté[1].

Histoire

Le diagramme en violon a été introduit, en 1997, par Jerry L. Hintze et Ray D. Nelson, comme un outil plus complet et précis que les diagrammes en boîte, créés par John Tukey en 1977[2]. Leur nom provient de leur ressemblance grossière avec un violon[2].

Création

Les diagrammes en violon sont similaires aux boîtes à moustaches, à la différence qu'ils affichent également la densité de probabilité des données à différentes valeurs, généralement lissée par un estimateur de densité à noyau. Un diagramme en violon inclut toutes les données qui le composent : un marqueur pour la médiane des données ; une boîte ou un marqueur indiquant l'écart interquartile ; et éventuellement tous les points d'échantillonnage, si le nombre d'échantillons n'est pas trop élevé.

Alors qu'un diagramme en boîte présente des statistiques récapitulatives telles que la moyenne, la médiane et les écarts interquartiles, le diagramme en violon permet de connaître la distribution complète des données. Il peut être utilisé avec des données multimodales (c'est-à-dire, ayant plus d'un pic). Dans ce cas, il montre la présence des différents pics, leur position et leur amplitude relative.

Usages

Comme les diagrammes en boîte, les diagrammes en violon sont utilisés pour représenter la comparaison d'une distribution variable (ou distribution d'échantillons) entre différentes « catégories » (par exemple, la distribution de température comparée entre le jour et la nuit, ou la distribution des prix des voitures comparée entre différents constructeurs automobiles).

Un diagramme en violon peut comporter plusieurs couches. Par exemple, la forme extérieure représente tous les résultats possibles. La couche suivante, à l'intérieur, peut représenter les valeurs observées 95 % du temps. La couche suivante (si elle existe) à l'intérieur peut représenter les valeurs observées 50 % du temps.

Les graphiques en violon sont moins populaires que les boîtes à moustaches, et peuvent être plus difficiles à comprendre pour les lecteurs qui ne les connaissent pas. Dans ce cas, une alternative plus accessible consiste à tracer une série d'histogrammes empilés ou de graphiques de densité de noyau.

Voir aussi

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Violin plot » (voir la liste des auteurs).
  1. « Violin Plot », NIST DataPlot, National Institute of Standards and Technology,
  2. (en) Hintze et Nelson, « Violin Plots: A Box Plot-Density Trace Synergism », The American Statistician, vol. 52, no 2,‎ , p. 181–184 (ISSN 0003-1305, DOI 10.1080/00031305.1998.10480559, lire en ligne )
  • Portail des probabilités et de la statistique