Entrainer l’apprentissage machine sans données d’entrainement, ce serait possible !

Peut-on apprendre à un algorithme d’apprentissage machine à prédire ce qu’il n’a jamais appris ? En d’autres termes, peut-on entrainer un algorithme d’apprentissage machine sans données d’entrainement ? Imaginez que vous souhaitez détecter automatiquement des OVNIs dans le ciel, mais vous n’avez aucune photo d’OVNIs confirmés pour que l’algorithme puisse s’entrainer ; ou alors repérer des transactions frauduleuses, alors même que vous n’en avez jamais eu, ou pas assez… Ne pourrait-on pas tout simplement créer de fausses données d’entrainement ?


Apprendre à partir de données d’entrainement créées par ordinateur

C’est ce que propose de faire la startup israélienne Ai.Reverie, dans laquelle In-Q-Tel, la société de capital risque de la CIA, vient d’investir… Si leur technologie fonctionne, et moyennant les précautions que nous allons détailler plus bas, cela pourrait rendre l’apprentissage machine efficace dans des milliers de situations dans lesquelles les données manquent ! Soit les données sont absentes, soit elles sont incomplètes, soit le volume de données pour certains cas est trop faible.

En Chine, ont été déployés des drones capables d’identifier le comportement de certaines personnes pendant la crise du Covid-19, comme par exemple les personnes qui toussent ou crachent.
Pour entrainer le système à identifier ces comportements, le principe de l’apprentissage machine consiste à fournir des données d’entrainement. Mais tousser dans le creux de son coude est une pratique relativement nouvelle. Peut-être manque-t-on de photos dans lesquelles nous pourrions étiqueter des personnes qui toussent dans leur coude. Comment accélérer alors l’entrainement du modèle ? C’est là que Ai.Reverie intervient, et pourrait proposer de générer des images de personnes toussant dans leur coude. Ces images, automatiquement étiquetées, pourrait alimenter la phase d’entrainement. Le modèle de détection apprendrait donc à partir de données images générées par ordinateur.

Dans la vidéo ci-dessous, Ai.reverie nous montre comment il peut automatiser la création d’objets, en faisant automatiquement varier leur forme, leur texture, leur couleur. On multiplie le nombre de données d’apprentissage, et surtout elles sont automatiquement étiquetées.

"Augmenter la base de données d'entraînement permettra d'améliorer la performance, mais sans en attendre des miracles. Il est rare que la performance obtenue soit sensiblement meilleure, étant donné que techniquement, ce sont les mêmes connaissances, peu difformes qui sont présentées à la machine", explique Mehdi Merai, CEO de Dataperformers, une startup canadienne spécialisée dans la conception d'applications d'intelligence artificielle.

Attention aux biais, qui seront amplifiés

Principal problème de l’apprentissage machine, les biais. Les biais involontaires sont toujours introduits à partir des données. Je souhaite développer un algorithme de détection de la beauté, et je ne l’alimente qu’à partir de photos de mannequins. Elles sont très largement blanches de peau. Le système en déduira qu’être belle, c’est être blanche. Cet exemple est réel, il s’agit du concours Beauty.AI en 2016 (Source : Numerama).
Lorsque je vais demander à Ai.Reverie de générer de fausses données d’entrainement, je vais introduire des biais. Les quelques données de base que je vais communiquer, serviront à la génération de milliers de données fausses parce que artificielles, mais justes car générées à partir de données réelles, et considérées comme la base d’apprentissage. Les biais initiaux seront donc amplifiés.
Autre problème, qui n’est pas propre à Ai.Reverie, mais global à l’apprentissage machine, l’incapacité de réaction face à une situation inconnue. Si la machine n’a pas appris, elle ne peut prédire la bonne réaction. C’est la limite de cette intelligence dite artificielle, et qui est finalement plutôt augmentée. Le fait de générer de fausses données d’apprentissage, pourrait donner une impression de complétude des données d’entrée. Cette complétude ne dépend pas du volume brute des données d’apprentissage mais de la combinaison du volume brut et de la diversité des situations apprises.

Mehdi Merai, CEO de Dataperformers, souligne un autre cas d'utilisation de la génération de données d'apprentissage, le respect de la confidentialité des données personnelles. "Ce genre de système permet de résoudre un grand défi lié à la confidentialité des données. Imaginons que je veuille confier à Dataperformers un projet d'apprentissage machine, mais j'ai du mal à partager mes données (ou les données de mes clients, par exemple si je suis une banque) avec mon prestataire. Ce genre de système permet de générer une base de données statistiquement similaire (même distribution statistique des cas) tout en ne partageant pas les vraies données. C'est un usage très intéressant que je ne vois pas encore beaucoup sur le marché".

Détecter des situations inédites

En revanche, si je cherche à détecter et anticiper un phénomène qui ne s’est jamais produit, pour lequel je n’ai donc aucune donnée, il y a deux méthodes possibles :

- Première méthode, je prévois tous les autres cas. Si un cas n’est pas détecté comme « appris » c’est qu’il s’agit du phénomène que je cherche. Exemple : je stocke la signature acoustique de tous les bateaux que je connais. Si un signal est détecté, je lance une alerte uniquement si le signal ne correspond à aucun signal de ma base d’apprentissage. J’ai détecté ce que je n’ai pas appris.

- Seconde méthode, celle que pourrait proposer AI.Reverie, je créé l’ensemble des images qui pourraient représenter ce que je cherche à détecter. Le modèle va donc s’entrainer à partir d’images qui n’ont jamais véritablement été constatées. Lorsqu’une image réelle apparaitra, il l’identifiera par comparaison avec sa base de fausses données. Bonne méthode… à condition que l’on soit capable de prévoir ce qui n’a jamais eu lieu. Si je cherche à détecter des OVNIs dans le ciel, je vais créer des images de ce que pourraient être un OVNI. Mais si l’OVNI réel n’a rien à voir avec mon imagination de soucoupe volante, il ne sera pas détecté.

AI.Reverie ouvre donc des perspectives très intéressantes, mais comme toujours dans le domaine de l’apprentissage automatique, il faudra garder un œil sur les données, et ne pas faire une confiance aveugle à la machine. En fait, si, on peut faire confiance à la machine… mais pas à celui qui a sélectionné les données d’apprentissage.