YZR, une solution tactique pour normaliser un premier référentiel de données

Avec un modèle mixte entre édition de logiciels et prestations de service, YZR propose deux outils-services Taxonomyzr et Normalyzr. Ils permettent respectivement d’automatiser la production des référentiels et de normaliser automatiquement les données. Des outils tactiques qui peuvent apporter une aide précieuse dans le cadre d’une démarche de gouvernance des données.

YZR (prononcez « wizer »), est une jeune entreprise – moins d’un an – mais créé par des moins jeunes ! Les fondateurs ont en effet cumulé de nombreuses années d’expérience chez de grands utilisateurs de données comme L’Oréal, McDonald’s, Elia, Google, Publicis ou encore eDreams. Leur projet : aider les entreprises à y voir clair dans leurs données, en automatisation la normalisation de ces dernières. Un problème simple en apparence… tellement simple qu’aucune entreprise ne parvient aujourd’hui à le résoudre simplement… et pour lequel des milliers d’heures en « moulinettes Excel » sont dépensées chaque année.

Nous avons tous vécu dans notre vie professionnelle, deux situations. La première est de rencontrer quelqu’un dans une grande organisation, dont le travail semble être consacré à la manipulation de données, de fichiers Excel, de reporting… sans aucun impact directement productif sur le monde réel. Et cette même personne se plaint généralement du manque d’intérêt de son travail. Selon une étude IDC publiée en 2019, 165 milliards d’euros seraient perdus chaque année en temps passé à normaliser des données à la main, soit 44 % du temps des data scientists. Et ce, sans compter les journées passées dans les unités d’affaires par des « petites mains » silencieuses plongées dans Excel…
La seconde c’est le rêve de normalisation, de création d’un référentiel, d’un dictionnaire ; rêve sans cesse repoussé au lendemain, dès que l’on prend conscience qu’aucun outil ne fera la totalité du travail à votre place, et que la composante humaine est la plus importante dans cette phase de normalisation des données.

Pour Sébastien Garcin, CEO de YZR, c’est l’absence de référentiel de données au sein des entreprises qui est à l’origine de ces pertes de temps ; et cette absence de référentiel imposé, vient de l’absence de gouvernance centralisée. Cette gouvernance doit, selon Sébastien Garcin, être « centralisée, forte et autoritaire, pour assurer que les données soient partageables dans l’entreprise ».

Normaliser une donnée apparait un travail simple. « C’est adopter une convention, un format. L’exemple le plus simple est celui des dates », explique le CEO de YZR. Mais la partie simple est la normalisation technique. La partie complexe est la normalisation fonctionnelle. Sébastien Garcin explique par exemple que chez L’Oréal, le code de L’Oréal Paris est « OAP » pour la finance, et « OPA » pour la chaîne logistique. Soit on parvient à mettre tout le monde d’accord sur une terminologie, soit ce sont des heures à passer dans Excel pour transformer les données. Chez Desjardins, au Québec, il y a 238 caisses, et chacune conserve sa propre codification des produits. Impossible de mettre les 238 caisses autour d’une table et d’attendre qu’elles se normalisent. Quant à une décision venant d’en haut, elle est toujours attendue, mais pas vraiment en phase avec la méthode du « consensus québécois ».
La solution proposée par YZR permet de normaliser les données en sortie, sans imposer de changement dans les sources de données. Finalement, avancer sans prendre de risques, même si cela ajoute une couche supplémentaire au système… ce que les entreprises adorent. « J’ai confiance dans l’inertie des organisations », avoue Sébastien Garcin, dont il est vrai que le potentiel d’affaires dépend en partie de cette difficulté qu’ont les organisations à mettre en place des processus contraignants de normalisation.

Un processus en deux étapes : création du référentiel puis normalisation des données

Première étape, la création du référentiel des données. L’objectif est de recenser l’ensemble des acceptions en entrée, qui seront traduites par la même donnée en sortie ; une sorte de table de correspondance multi-entrées. Pour chaque donnée, seront identifiées l’ensemble des variations rencontrées. Les premiers référentiels doivent être réalisés à la main, car aucun outil informatique ne peut deviner que le client « OAZ987 », correspond à « Jean OAZIN ». L’objectif de Taxonomyzr, est à terme d’utiliser l’apprentissage machine pour découvrir ce qui pourrait être des correspondances.
YZR s’adresse entre autres à la grande distribution. Les catalogues produits de magasins d’une même chaîne sont rarement standardisés. Taxonomyzr devrait pouvoir automatiser prochainement au moins une partie de la création de référentiels dans ce secteur.
Cette création de référentiel vous fait certainement penser à la gestion des données de référence - le MDM -, en effet, on parle bien ici du même sujet. Mais Sébastien Garcin explique que les deux outils sont complémentaires, le MDM créé la structure du référentiel, et les outils de YZR vont venir y apporter le contenu.
En ce qui concerne le recouvrement avec les ETL, dont la fonction de transformation est censée prendre en charge des tâches, le CEO de YZR est très clair. Les fonctions de transformation des ETL n’arriveraient pas à la cheville des outils de YZR, qui ont été conçus pour cette unique fonction. Taxonomyzr propose par exemple des fonctions d’enrichissement qui permettent d’ajouter des métadonnées au référentiel.

Le second processus, est celui de la normalisation des données : la traduction, qui s’appuie sur le référentiel créé avec Taxonomyzr. L’outil Normalizr exécute le travail. Les fichiers en en entrée sont soumis. Pour les utilisateurs en amont, c’est transparent. Le référentiel est alimenté. Pour les utilisateurs en aval, c’est transparent également. Chacun garde ses codifications, et parle donc deux langages différents, YZR assurant la traduction.

Un logiciel autonome, demain ; aujourd’hui une prestation de services

A ce jour, YZR se focalise sur trois secteurs d’activité : la distribution, la publicité, et la finance. Car pour l’instant, la solution décrite ci-dessus n’est pas disponible en totale autonomie pour le client. YZR le propose sous forme de prestation de service, en batch. Car même si certaines fonctions sont automatisées, la création des normes de transformation ne peut pas l’être totalement, et nécessite une phase de conseil et d’assistance. L’expérience des fondateurs dans des grandes groupes, est ici une valeur ajoutée certaine.

Ce modèle économique à deux branches : prestations de service, et éditeur de logiciels, est généralement mal vu des investisseurs, en particulier américains, pour son manque de focalisation. En consacrant du temps aux prestations de service, l’équipe ne se dédit pas à 100 % au développement du logiciel. Mais ce qui était considéré comme une faiblesse par certains avant la crise sanitaire du Covid-19, pourrait être demain applaudi. Grâce à ces prestations de service, YZR a pu maintenir son activité, se développer même pendant les mois de confinement, et poursuivre son développement.
Peut-être les investisseurs noteront-ils l’avantage de ce double modèle en période incertaine. Tenir un plan B est une force si l’avenir à court terme est menacé.
Mais à terme l’objectif est bien de fournir le service en mode automatisé, « as a Service » ; sans pour autant tenter de devenir une plateforme et de regrouper l’ensemble de la chaîne de traitement. Sébastien Garcin voit plutôt les outils YZR s’intégrer dans l’ETL des clients, ou dans une plate-forme comme Dataiku.

Le coût de la combinaison service/logiciel de YZR est annoncé par l’éditeur à 0,001 centimes par cellule de donnée traitée. Comparé au coût de traitement actuel, sur la base du salaire d’un analyste de données, YZR estime que son coût est divisé par 10.

Les principaux concurrents de la solution YZR sont :
- Les ETL et leurs modules de transformation;
- Des solutions dédiées comme Gathering Tools de Calame Software;
- Et bien sur, les habitudes... utiliser Microsoft Excel et Access.

Quel futur pour cette solution tactique ?

Point extrêmement positif, YZR répond à un problème clair, identifié, mesurable, et qui correspond à une véritable douleur dans la plupart des entreprises : disposer de référentiels de données transverses. Il y répond de manière tactique, et apporte une solution qui peut se mettre en place rapidement, à un coût raisonnable.

Mais il ne résout pas le problème de fond, le manque d’effort des entreprises pour normaliser leurs données. YZR propose un traducteur… c’est très utile. Vous pouvez sans doute aller au Japon, utiliser ces petites machines de traduction qui vous permettront de vous faire comprendre dans la rue. Mais si vous souhaitez vivre là-bas, cela ne remplacera pas le fait d’apprendre la langue ! Certes les 238 caisses de Desjardins peuvent maintenant envoyer leurs données au travers de YZR et le siège peut disposer d’une vision unique. Mais le problème reste entier : l’absence de normalisation des référentiels. Si l’un des référentiels change en entrée, ou si une nouvelle codification apparait, il faudra adapter le traducteur ; et en réunion, chacun continue de parler sa propre langue.

Du point de vue plus stratégique, YZR ne souhaitant pas multiplier les fonctions et devenir une plate-forme, il devrait intéresser rapidement d’autres acteurs. Des clients tout d’abord. Veepee (Vente Privée) a, par exemple, fin 2019, racheté la startup Scalia, spécialisée dans l’harmonisation des données produits des catalogues fournisseurs ; ou encore Daco, spécialisée dans l’analyse concurrentielle. Début 2019, McDonald’s avait de son côté investi 300 millions de dollars dans le rachat de Dynamic Yield.
La solution YZR pourrait aussi intéresser les éditeurs d’ETL qui sont devenus des plates-formes, Talend, Informatica, et même certains éditeurs de solutions métiers comme SAP ou Salesforce.
Le futur est donc ouvert pour YZR qui, à court terme, aide ses clients à mettre en place une solution – en espérant qu’ils profitent du temps gagné pour développer de véritables bonnes pratiques de gouvernance des données – et, à long terme, devrait rejoindre une solution plus complète.