L’Intelligence Artificielle et le Machine Learning, parés au plus près

Pour la plupart des organisations, le déploiement de l’Intelligence Artificielle et du Machine Learning est synonyme d’interconnexion de réseaux périphériques, et plus spécifiquement de Data Centers multi-locataires.

Juan Penaranda, Data Center Specialist, Market development, Corning Inc. et de Ryan Fontaine, Co-fondateur de Citadel Analytics.

Sur internet, on peut souvent lire cette citation: « La connaissance, c'est savoir qu'une tomate est un fruit. La sagesse, c'est de ne pas la mettre dans une salade de fruits. » Le Machine Learning (ML) pourrait vous faire apprendre que la tomate est un fruit et l’Intelligence Artificielle (IA) vous recommanderait de ne pas en mettre dans votre salade de fruits. Trêve de plaisanterie : le ML finirait par le comprendre.

L’IA et le ML sont bien plus que ce que l’on pourrait croire : leur périmètre peut aller des traductions de langage jusqu’à des diagnostics plus précis de maladies complexes. Pour donner un ordre d’idée de la puissance informatique requise par l’IA et le ML : il a été démontré en 2017 que l’un des modèles de reconnaissance vocale du chinois de l’entreprise Baidu nécessitait non seulement 4 Téraoctets de données de formation, mais aussi 20 exaflops soit 20 milliards de milliards d’opérations mathématiques au cours du cycle de formation tout entier.

L’équilibre que les fournisseurs recherchent pour répondre aux besoins en matière d’IA et de ML consiste à fournir la meilleure qualité de service à un moindre coût.

Comment fournir la meilleure qualité de service ?

Il faut réduire la latence et être capable de prendre en charge les demandes en débit que requièrent les futures applications. L’effet de la latence peut être amélioré en réduisant la distance physique de transport des données. Ces demandes de latence mènent généralement vers des Data Centers plus petits et plus proches de l’endroit où les données sont créées et consommées, ce qui optimise les coûts de transmission et la qualité du service. Un deuxième équilibre à atteindre réside en la recherche du coût le plus bas lors de l’utilisation de ces applications. Dans le passé, l’architecture augmentait les coûts selon la quantité de données, la distance ou les « sauts ». L’IA et le ML ont grandement augmenté la quantité de données transférées, résultant en des coûts de transport plus élevés. De plus en plus de Data Centers de proximité s’avèrent être la solution à ces problèmes au vu de la proximité du lieu où sont créées les données, et les Data Centers multi-locataires se trouvent en bord de réseau où une grande partie des données va être stockée. Les data centers de proximité permettent d’avoir un moindre risque en déployant un Data Center local tout en étant la plateforme la plus rapide dans la génération de revenu.

Définitions

Avant d’aborder le sujet de l’IA, du ML, des Data Centers de proximité, revoyons certaines définitions afin que tout le monde soit sur la même longueur d’onde.

L’IA est le domaine principal qui englobe les autres types d’IA/ML. Elle représente généralement la théorie et le développement de systèmes informatiques capables d’exécuter des tâches qui ont normalement besoin de l’intelligence humaine, telles que la perception visuelle, la reconnaissance vocale, la prise de décisions et la traduction entre deux langues. Le meilleur moyen de décrire ces relations consiste à visualiser des poupées russes qui s’emboîtent les unes dans les autres : l’IA représente la plus grande poupée, le Machine Learning s’y insère, suivi par le Deep Learning.

Le ML est une application de l’IA qui fournit aux systèmes la capacité d’apprendre de manière automatique et de s’améliorer grâce à leur expérience, sans pour autant être programmés de façon explicite.

Les Data Centers Edge ou de proximité sont des infrastructures qui rapprochent la puissance informatique et de traitement des Data Centers au plus près de l’endroit où les données sont créées, en décentralisant certaines applications à latence dépendante du Data Center principal. Les clients font appel aux Data Centers Edge ou de proximité pour différentes raisons, notamment pour réduire des coûts de transmission, améliorer la qualité des services, la sécurité et la durabilité.

Les Data Centers Edge ou multi-locataires, également connus sous le nom de Data Centers en colocation, sont des infrastructures où les entreprises peuvent louer de l’espace afin d’accueillir leurs données. Les Data Centers Edge ou multi-locataires fournissent l’espace et l’équipement réseau afin de connecter l’entreprise aux opérateurs à moindre coût. Les entreprises peuvent louer cet espace afin de répondre à divers besoins allant d’un simple serveur rack à un module entier sur mesure.

L’IA et le ML sont les technologies les plus révolutionnaires depuis l’invention de l’électricité. Elles sont plus puissantes que l’internet et les révolutions de la mobilité réunis. La raison pour laquelle ces technologies sont si puissantes et percutantes est qu’elles donnent du sens à de grandes quantités de données, de manière rapide et efficace. Nous vivons dans un monde générateur et axé sur les données (les analystes du marché estiment que plus de 80% des données actuelles ont été créées au cours des deux dernières années), et sans ces outils nous finirions par être noyés par toutes ces données. Par exemple : cette année, le monde entier va créer près de 40 zettabytes d’informations, c’est-à-dire 40 trillions de gigabits d’informations ! Il n’est pas concevable que des humains puissent donner du sens à une telle quantité d’informations ; même s’ils travaillaient tous ensemble nuit et jour, cela est mathématiquement impossible.

Alors comment donner du sens à toutes ces données ?

Grâce à l’IA et au ML ! Ces technologies sont en effet friandes de données, cas elles les alimentent. En utilisant de puissants modèles d’IA et de ML correctement formés, on peut traiter avec précision de grandes quantités d’informations et ainsi révéler les données ayant le plus de valeur. Le Machine Learning appliqué aux images de résonnances magnétiques ou IRM (ML MRI : Magnetic Resonance Images) permet de tester des résultats par rapport à des résultats connus de cancer ou de non-cancer (résultats positifs et négatifs). C’est ce que l’on appelle la phase d’apprentissage.

Ensuite, de nouveaux IRM sont chargés et analysés dans le modèle en cours d’apprentissage. Ces données contiennent également des IRM avec des résultats connus mais pas encore vus par le modèle. Ces nouveaux IRM sont appelés ensemble de données de validation. Ces données sont transportées vers le modèle en cours d’apprentissage, les résultats sont ensuite calculés et affichés. Les résultats de données de validation sont alors évalués selon les indicateurs de performance choisis pour ce modèle. Si les résultats sont acceptables, alors le modèle est éduqué et prêt pour davantage de tests/validations ou pour un déploiement direct. Si les données authentifiées échouent, on repart en arrière et recrée le modèle ou on lui donne davantage de données afin d’optimiser sa formation pour le prochain test d’authentification. C’est la phase de validation.

Un point de vue humain

Les bénéfices de l’IA ne se trouvent pas toujours là où les entreprises les attendent. La plupart de celles qui se sont adressées à Citadel Analytics s’attendaient à une hausse des ventes ou à des réductions de coûts grâce aux gains de productivité. Tandis que tout cela se produit au fil du temps, le plus grand bénéfice reste la satisfaction du collaborateur et la performance délivrée. Il a été prouvé que des collaborateurs travaillant dans une entreprise qui maîtrise l’IA et le ML sont plus enclins à être plus heureux au travail et à vouloir rester dans leur entreprise actuelle, contrairement aux collaborateurs travaillant pour des entreprises ne sachant pas maîtriser ces technologies.

Cela prend tout son sens puisque l’IA et le ML consistent en l’automatisation de toutes les tâches « ennuyeuses » afin de laisser du temps à vos collaborateurs passionnés pour faire ce qu’ils savent le mieux réaliser sans pour autant connaître une baisse d’efficacité-(les entreprises observent souvent l’apparition d’un pic de productivité). Le fait d’avoir des collaborateurs heureux ainsi que de réduire leur taux de désaffectation est un réel avantage lorsque l’on utilise l’IA ; mais cela reste encore trop souvent négligé par une grande partie des entreprises.

Comment câbler et déployer l’IA et le ML

Le principal problème que connait l’IA est l’impressionnante puissance de traitement qui est requise. Heureusement, des entreprises telles que Nvidia, Intel, AMD et bien d’autres comblent le fossé laissé par cette puissance de traitement. Cela permet à des entreprises comme BMW, Walmart, Target et beaucoup d’autres de déployer leurs compétences en bord de réseau / de proximité en matière d’IA. Cela implique d’installer de puissants équipements sur site, ce qui traitera les données sur site qui utiliseront le modèle préformé. Cela réduit considérablement la latence et la requête pour le débit en temps réel.

Cependant la difficulté vient du fait que personne ne peut créer un « AI/ML » en bordure du réseau uniquement. En effet même si le matériel informatique peut gérer le traitement des données de modèles préformés, il n’est en revanche pas assez puissant pour former et mettre le modèle à jour : pour ce faire un matériel informatique bien plus performant est nécessaire. Et c’est ici que l’approche hybride prend tout son sens.

Dans un design typiquement hybride, le serveur Edge va traiter toutes les données sur site qui utilisent le modèle déjà créé. Ces serveurs Edge vont sélectionner les Data Centers multi-locataires qui conviendront le mieux à leurs key drivers et permettront une certaine flexibilité pendant l’évolution du réseau et des applications. Concernant l’infrastructure optique, les Data Centers multi-locataires procèdent au déploiement typique d’une fibre monomode pour permettre aux utilisateurs finaux de s’adapter. Lorsque l’entreprise déploie son IA/ML, elle doit tenir compte non seulement du débit actuel de son réseau, mais aussi du futur. Chez Citadel Analytics, la règle d’or est de toujours multiplier par 4 la bande passante moyenne estimée : c’est le chiffre qu’une entreprise devrait afficher dans son système. La bande passante est le premier élément à être consommé lors des déploiements IA/ML effectués dans le monde réel.

Cette augmentation de la bande passante souligne également un besoin de solutions haute-densité pour les Data Centers multi-locataires, ainsi que pour les utilisateurs finaux. Ces Data Centers multi-locataires maximisent l’espace blanc générateur de revenus, tandis que l’utilisateur final peut utiliser efficacement l’espace blanc dans lequel il a investi. Cet espace et cette infrastructure peuvent se décliner sous de multiples formes et dimensions. Il est essentiel de travailler avec un fournisseur possédant une variété de produits qui puisse gérer tout ce que vous voulez développer (fibre monomode ou multimode, LC ou MPO). Pour l’utilisateur final, ceci permet de réduire le coût total de son infrastructure, d’augmenter la densité et diminuer la consommation d’énergie. L'optique parallèle et l'utilisation de l’épanouissement de ports permettent de réaliser ces optimisations. Grâce à cette application, des émetteurs-récepteurs plus rapides peuvent être installés lors du câblage. Des émetteurs-récepteurs de 40 gigas peuvent être exploités sous quatre formes individuelles de 10 gigas chacun, ce qui permet de réaliser une connexion haute-densité. Afin d’exploiter correctement l’IA et le ML, un réseau de Data Centers interconnectés devra fournir le réseau informatique au plus près de l’endroit où sont créées les données. Cela engendre un besoin d’ampleur globale, avec un produit uniforme et modulable qui offre une solution complète à partir des Data Centers de proximité vers les Data Centers centraux.

Les Data Centers multi-locataires représentent un investissement à bas-risque permettant de générer des revenus plus rapidement grâce à la vitesse de leur déploiement et à leur disponibilité. Afin de former et de mettre le modèle à jour, toutes les données sont envoyées aux serveurs de formation, situés dans un Data Center privé, un Data Center généralement multi-locataires ou le Cloud. Ces serveurs utilisent ces nouvelles données pour former et renforcer automatiquement la précision du modèle utilisé.

À une distance de moins de 10 kms, les fournisseurs peuvent souvent réduire la latence de 45%. Cela signifie qu’un Data Center central reste nécessaire, ainsi que des Data Centers locaux, plus petits et plus proches de l’endroit où les données sont produites. Les Data Centers multi-locataires deviendront ainsi les principaux véhiculeurs pour ces Data Centers locaux et plus petits.

Les Data Centers de proximité seront une extension, voire un hôte de cette interconnexion de Data Centers multi-locataires haute-densité. Ces deux services auront besoin l’un de l’autre pour pouvoir fournir un service complet au client ainsi qu’au réseau.

Les Data Centers multi-locataires disposant des installations les plus interconnectées et des combinaisons de clients les plus riches en écosystèmes tireront profit en premier des avantages d'un Data Center de proximité.

Que pouvons-nous attendre pour les années à venir ?

L’IA et le ML sont des applications pérennes. Il y a un véritable argument commercial et humain concernant le niveau de revenus et de productivité que ces applications fournissent aux adoptants. Le passage à une plus haute bande passante au niveau régional n'est pas optimisé avec l'architecture actuelle (tout en maintenant le coût le plus bas et la meilleure qualité de service possible).

Nous verrons que ces applications fonctionneront en bordure de réseau, ce qui pour la plupart des entreprises veut dire dans des Data Centers multi-locataires. Ceux-ci présentent moins de risques et une voie plus rapide vers des bénéfices.

Ceci entraînera la multiplication d’infrastructures interconnectées avec plus de solutions haute densité dans plus de sites, plutôt que sur des plateformes centrales plus grandes.