Le coefficient de corrélation est un indice qui mesure la relation linéaire entre deux courbes statistiques. Ce coefficient de corrélation varie de -1 à +1. Un coefficient de corrélation de -1 indique une relation inversement proportionnelle entre deux courbes (quand l’une est au plus bas, l’autre est au plus haut). La valeur +1 au contraire indique une parfaite similitude entre deux variables. A zéro, il n’y a aucune corrélation entre les variables.

Comme le montrent nos exemples, un fort coefficient de corrélation n’établit pas un lien de cause à effet (ce n’est pas parce que A augmente que B augmente). Il peut exister un troisième paramètre reliant ces deux éléments. On observe par exemple que l’augmentation des ventes de lunettes de soleil suit l’évolution du nombre de coups de soleil. Mais ce n’est pas parce que vous portez des lunettes de soleil que vous attrapez un coup de soleil. C’est l’augmentation de l’ensoleillement en été qui explique l’allure de ces deux courbes. Autre exemple bien connu, celui du nombre de cigognes et du taux de natalité. Les deux diminuent en même temps et sont effectivement reliés, mais à un troisième facteur : l’urbanisation.

Mais la ressemblance entre deux courbes statistiques peut également relever de la pure coïncidence, comme le montrent certains de nos exemples. A l’inverse, un coefficient de corrélation faible n’exclut pas que deux variables exercent une influence l’une sur l’autre.

L’hebdomadaire de Hamburg Die Zeit publie chaque semaine dans sa rubrique “Wissen in Bildern” (Le savoir en images) une infographie originale. Christoph Drösser et Jelka Lerche, qui ont réalisé celle-ci, publiée le 26 mars, sont partis en quête de fausses corrélations. Ils en ont trouvé beaucoup, parmi des sources variées, et ils ont “bien rigolé”, confient-ils. Ils ont tenu à partager leurs pépites.