Le contrôle dynamique de la qualité des données s’invite dans la montée de l’intelligence artificielle

Le contrôle dynamique de la qualité des données s’invite dans la montée de l’intelligence artificielle

Rédigé le 29/11/2019
David Zydron, Experian

Longtemps cantonnée à des communautés au sein des métiers ou simple fait de techniciens puristes ou perfectionnistes, la notion de qualité des données prend désormais un sens beaucoup plus fort, à l’heure de l’intelligence artificielle, des véhicules autonomes ou du machine learning,


La pratique est bien sûr au centre du processus décisionnel depuis les débuts de l’ère numérique, principalement dans l’industrie, le retail ou la banque et l’assurance. Gestion du risque, ciblage client, personnalisation des offres, automatisation des back offices… Les usages sont nombreux.

La pénétration progressive du digital dans tous les pans de la société et de l’économie lui offre aujourd’hui une portée encore plus vaste, ayant amené différents experts à réaliser une étude sur le sujet.

Celle-ci menée par l’Autriche à l’échelle européenne a été soutenue par le Ministère des Transports, de l’Innovation et des Technologies autrichien, la Province de Haute Autriche et le Ministère Fédéral pour les affaires Économiques et Numériques, et rappelle que la précision dans l’appréciation du niveau de qualité des données est un facteur constitutif majeur pour juger de la pertinence des décisions basées sur leur analyse.

Extrêmement documentée, l’étude balaie les méthodes et les techniques de mesure de la qualité des données les plus avancées, et tente d’y associer les usages d’implémentation pratiques les plus courants. Le tout avec pour objectif affiché de répondre à la question : « comment mesurer et contrôler la qualité des données de façon entièrement automatisée » ; en d’autres termes, comment passer à l’étape supérieure et garantir la qualité des données en continu dans les processus informatiques.

L’automatisation est en effet un préalable presqu’obligatoire pour la mise en place des produits et services qui s’annoncent, dont l’essence même est l’ultra précision des données, qu’il s’agisse de référentiels d’identité, de temporalité ou de géographie.

Pour y parvenir, les auteurs ont sélectionné et testé en profondeur 13 solutions technologiques, après avoir identifié pas moins de 667 outils logiciels dédiés à la « qualité des données », et les avoir méthodiquement triés selon des critères d’exclusion précis. Pour couper court à tout partisanisme sur la forme, la méthode de sélection est elle-même très documentée : analyse de toutes les études ou publications déjà parues sur le sujet, recherches systématiques puis aléatoires en ligne pour garantir l’exhaustivité.

Sur le fond, certains s’interrogeront sur l’utilité même d’une nouvelle étude sur les méthodes ou les outils de qualité de données, alors que de nombreuses autres ont déjà été publiées : or il apparaît que très peu se penchaient effectivement sur le volet purement opérationnel, la mise en application et comme dit plus haut, l’analyse du rafraichissement du processus de mise en qualité au cœur même des opérations. Dans ce cas précis, l’angle fort du rapport porte plus particulièrement sur la mission des outils (littéralement « the overall focus ») en termes de fonctionnalités : profilage, mesure et métriques et enfin, contrôle continu de la qualité des données.

L’étude souligne également la possibilité d’étendre la palette d’outils à des fonctionnalités sur-mesure, un point devenu fondamental si l’on en juge par l’importance croissante des « soft dimensions » dans la notion même de qualité. Jusqu’à aujourd’hui, les métriques généralement admises reposaient en effet sur la précision, la complétude, la cohérence et la temporalité. Pourtant, la qualité dépendra également de plus en plus de critères inhérents, par exemple, au domaine d’activité ou à d’autres éléments plus immatériels, et c’est la prise en compte globale de ces dimensions « hard » et « soft » qui permettront in fine de fonctionner selon une approche qualifiée de « fitness for use » dans un environnement business donné.

Le monde va avoir de plus en plus besoin de garanties non seulement de l’intégrité des données, mais également de leur qualité, notion dont les contours évoluent en même temps que les offres numériques se multiplient et se complexifient. Les entreprises doivent prendre la mesure de ces nouveaux enjeux et se doter des moyens adéquats pour verrouiller ce sujet.

20191128_survey_on_data_quality_tools.pdf 20191128 Survey on data quality tools.pdf