Big Data, statistiques et infographie : les chiffres disent-ils toujours la vérité ?

Une opinion largement répandue veut que les données parlent d’elles-mêmes, que leur simple présentation suffise et nous évite ainsi de longs discours. Ceci est totalement faux, les chiffres ne parlent vraiment qu’après un long interrogatoire pendant le lequel on leur fait décliner leur identité, où on vérifie tous les détails, où l’on recoupe les informations, où l’on traque les contradictions, où l’on compare avec des résultats obtenus en d’autres occasions, etc.

Un des grands classiques de données qui peuvent induire en erreur est la présentation de deux séries de données qui à première vue semblent porteuses de sens, mais qui sont biaisées, car en fait dépendantes d’une variable intermédiaire non apparente qui est la clé explicative principale. Par exemple, le niveau de revenu induit des facilités qui vont impacter des résultats indirectement, par exemple en matière d’instruction, d’hygiène, d’implantions géographiques ...

Compter et mesurer sont historiquement devenues nécessaire aux hommes pour maîtriser leurs activités, dès les premières civilisations. Il existe des preuves archéologiques de compteurs et de systèmes de comptage dans certaines des plus anciennes cultures humaines (cf. les os d'Ishango, datant de 18000 av. J.-C.). Dans l’Égypte des pharaons, pour garder une trace de la quantité de terre allouée à un agriculteur, de la quantité de récolte, ainsi que de tout impôt ou taxe à payer, un système de mesures et de comptage avait été développé.

Si les recensements et les comptes de gouvernement remontent à l'antiquité, la statistique qui date de 1800 est venue avec l’ambition de transformer l’artisanat de l’état en une science. La statistique se veut au début une science sociale qui permet d’identifier rapidement les causes de problèmes sociaux tels que le crime, le suicide, l'épidémie … Mais en fait, les gouvernements n'ont jamais vraiment écouté, car le message statistique n’est souvent pas aussi simple que l’espèrent les statisticiens, les graphiques ne montrant pas de lien simple entre instruction et crime, par exemple.

Les statisticiens estiment que les statistiques sont une forme d’information, que les chiffres s’expliquent d'eux-mêmes et sont facilement accessibles à quiconque. Mais les statistiques ne sont que très rarement vraiment transparentes et pas seulement pour le grand public, même si certaines statistiques sont assez lisibles pour décrire les résultats de la mesure de variables uniques et pour construire et évaluer des échelles multi-items. Ces statistiques comprennent des distributions de fréquences, des mesures de la tendance, de la variation centrale …

D'autres statistiques sont utiles pour atteindre une validité causale en nous aidant à décrire l'association entre variables et à prendre en compte d'autres variables ou à en tenir compte. (Statistiques bivariées et multivariées). La tabulation croisée est la technique permettant de mesurer l'association et de contrôler d'autres variables. Il est aussi possible d'estimer le degré de confiance que l'on peut accorder à la généralisation d'un échantillon à la population à partir de laquelle l'échantillon a été sélectionné. Mais, arrivé à ce niveau d’information on commence à perdre beaucoup d’écoute et l’idée que l’on peut faire dire ce que l’on veut à des statistiques est très répandu. Pour Mark Twain par exemple, il y a trois sortes de mensonges : les mensonges, les sacrés mensonges et les statistiques.

Avec les Big Data une autre difficulté se présente, celle de l’avalanche de chiffres qui sont à communiquer. Mais, heureusement nous avons l’infographie pour nous aider qui permet de présenter des informations complexes rapidement et clairement, avec des éléments visuels (couleurs, graphiques, icônes, panneaux, cartes …), des éléments de contenu (texte, faits, statistiques, délais, références …), des faits et la conclusion pour transmettre le message ou l'histoire globale. L’infographie attire l'œil, l'attention des gens, d’autant plus que 65% de la population apprend plus facilement visuellement.

Cependant, comme nous sommes dans un monde de post-vérité, ou le politiquement correct assume de mentir pour le bien de tous, comme les régimes totalitaires, il convient de regarder n’importe quelles données chiffrées avec beaucoup de prudence, y compris et peut être même surtout celles présentées par les gouvernements et la presse. Ici on notera qu’au jeu de la vérité, internet est à la fois une aide et une source d’erreurs. Pour aller plus loin sur notre monde de post-vérité, où règne la désinformation vous pouvez utilement lire mon article sur le sujet : cliquez ici