Glossaire, lexique, référentiel ou dictionnaire… de données

Glossaire, lexique, référentiel ou dictionnaire… de données

Rédigé le 19/01/2020
Philippe Nieuwbourg

A chacun sa terminologie. Les principaux éditeurs de logiciels d’aide à la gouvernance des données proposent un espace partagé dans lequel les données sont définies et expliquées. Comment appeler cet espace ? Pour certains c’est un dictionnaire de données, mais pour d’autres, le mot utilisé devient un outil de différentiation marketing.

Les mots ont leur importance. D’une part car ils permettent de communiquer entre nous et de comprendre la signification qu’ils soulignent ; d’autre part il n’est pas nécessaire d’inventer de nouveaux mots quand les mots existants font l’affaire.

En informatique, nous sommes beaucoup trop tentés de moderniser les termes employés. D’une part sous le prétexte qu’un mot nouveau serait plus attirant qu’un mot ancien ; d’autre part pour éviter de faire l’effort d’utiliser la langue française… c’est tellement plus « chic » d’angliciser ! Je refuserai donc ici de parler de « repository ».

En matière de gouvernance des données, penchons-nous sur un des concepts fondateurs : la liste des données, leur définition, leurs caractéristiques, et l’ensemble des métadonnées qui leur sont rattachées. On a coutume de parler de « dictionnaire des données » ; mais certains semblent vouloir s’affranchir de cette dénomination, et utilisent les termes de glossaire, de lexique ou encore de référentiel.

Revenons aux définitions

Un dictionnaire est un recueil contenant les mots, les expressions d'une langue, présentés dans un ordre convenu, et qui donne des définitions, des informations sur eux. Cela s’applique plutôt bien à la notion de dictionnaire de données, à l’exception du fait qu’on ne recense pas les mots d’une langue… quoique le vocabulaire interne d’une entreprise puisse parfois être assimilé à une langue. Important dans cette définition, la recherche de l’exhaustivité. On veut dans un dictionnaire définir l’ensemble des mots d’une langue, tout comme le dictionnaire des données doit recenser l’ensemble des données de l’entreprise. Le dictionnaire en donne pour chacun une définition, et des informations… les fameuses métadonnées.

Pendant des siècles, les termes de dictionnaire, glossaire et lexiques ont été quasiment synonymes. Mais petit à petit, leur usage s’est spécialisé.

« Le vocabulaire ou lexique d'une langue est l'ensemble de ses mots, ou de façon plus précise en linguistique de ses lemmes. Les mots d'un lexique forment un tout, une sorte de système sémantique, qui évolue donc au fil du temps », explique Wikipedia. Selon d’autres définitions, un lexique serait en revanche un dictionnaire succinct, qui ne reprendrait pas l’ensemble des mots, et se spécialiserait dans un domaine. Ainsi la liste des données centralisées dans le système d’information, gérées par le département informatique, excluant les données des métiers, serait plus un lexique qu’un dictionnaire.

Quant au glossaire, il serait plutôt utilisé dans le domaine de l’édition. Beaucoup y voient une sorte de lexique des mots peu connus, contenus dans un ouvrage.

Il faut également noter qu’en anglais, il existe également une différence entre « glossary » et « dictionary » : « The main difference between Dictionary and Glossary is that the Dictionary is a collection of words and their meanings and Glossary is a alphabetical list of terms relevant to a certain field of study or action ». Source : https://www.askdifference.com/dictionary-vs-glossary/

Pour en savoir plus sur l’étymologie et l’histoire de ces mots, je vous conseille de parcourir cette page : http://www.unicaen.fr/recherche/mrsh/erlis/infosDicos/origine

Autre mot parfois utilisé, celui de catalogue. Il s’agit d’une énumération. Selon le Larousse, un « inventaire à données scientifiques des livres conservés dans des lieux déterminés (bibliothèque, librairie, etc.) ; une liste de documents, imprimés ou non, classés selon un ordre déterminé, suivant des règles préétablies pour en faciliter la recherche ». Là-encore le terme peut s’appliquer à notre dictionnaire de données. Néanmoins l’usage du mot catalogue est habituellement dédié à des produits, à des biens physiques. Les données étant par nature des biens immatériels, l’usage du mot catalogue n’est peut-être pas le plus adapté. Surtout, le catalogue n’impose pas la présence d’une définition, ou de métadonnées. Il peut s’agir d’une simple liste, pointant vers le produit catalogué. En cela, nous nous éloignons des objectifs du dictionnaire de données.

L’utilisation du terme « référentiel » est également intéressante : Il s’agit d’une liste d'éléments formant un système de référence. On ne parle plus simplement de mots, mais d’éléments. Et ces éléments sont reliés entre eux, pour former un système de référence.
En cela, le terme de référentiel s’appliquerait bien au dictionnaire des données, en particulier si les données sont reliées entre elles, partagent des définitions et des normes de présentations, etc. Le Larousse y voit : « Un ensemble auquel doivent appartenir les éléments, les solutions d'un problème posé. Un ensemble général dont on étudie les sous-ensembles ».

Et si l’on commençait par un dictionnaire de données, qui évoluerait vers un référentiel de données

Mon conseil serait de commencer par construire un dictionnaire des données. Il serait :
- Complet, recensant l’ensemble des données de l’entreprise (même si des priorités dans sa conception doivent être données) ;
- Ordonné, par domaine métier, par ordre alphabétique, par type de données… ou tout cela à la fois ;
- Il contient pour chaque donnée, sa définition ; c’est-à-dire la définition commune, acceptée et partagée par tous ; c’est le langage commun de l’entreprise ;
- Il contient pour chaque donnée, ses métadonnées : c’est-à-dire les informations qui permettent de caractériser la donnée (son emplacement dans le système d’information, sa forme de stockage, ses règles de qualité, son propriétaire, ses utilisateurs, etc.)

Une fois le dictionnaire de données bien avancé, il sera possible de le transformer en référentiel de données, en le structurant.

Ce sera l’occasion de créer des liens entre les données, on les regroupera en fonction des applications, des usages, des règles de conformités, etc. Les données pourront être reliées les unes aux autres, par exemple au travers d’une base de données graphes qui pourra stocker et visualiser le dictionnaire de données. Cette base de données graphes servira aux études d’impacts, aidera à comprendre les réorganisations, à planifier les nouvelles applications. On aura alors transformé notre dictionnaire de données en un véritable référentiel d’entreprise. Il deviendra éventuellement possible de le partager, à l’intérieur d’un même groupe d’entreprises ou au sein d’une organisation professionnelle sectorielle.