Enseigner l’intelligence artificielle pour connecter les sens comme la vision et le toucher

Enseigner l’intelligence artificielle pour connecter les sens comme la vision et le toucher

Le système MIT CSAIL peut apprendre à voir en touchant et en sentant en voyant, suggérant un avenir où les robots peuvent plus facilement saisir et reconnaître des objets.

Dans le livre de l’auteure canadienne Margaret Atwood, « Blind Assassins », elle dit que « le toucher passe avant la vue, avant la parole. C’est la première et la dernière langue, et elle dit toujours la vérité. »

Alors que notre sens du toucher nous donne un canal pour sentir le monde physique, nos yeux nous aident à comprendre immédiatement l’image complète de ces signaux tactiles.

Les robots qui ont été programmés pour voir ou sentir ne peuvent pas utiliser ces signaux de manière aussi interchangeable. Pour mieux combler cette lacune sensorielle, les chercheurs du Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) ont mis au point une intelligence artificielle prédictive (IA) qui permet d’apprendre à voir en touchant et à sentir en voyant.

Le système de l’équipe peut créer des signaux tactiles réalistes à partir d’entrées visuelles et prédire quel objet et quelle partie sont touchés directement par ces entrées tactiles. Ils ont utilisé un bras de robot KUKA avec un capteur tactile spécial appelé GelSight, conçu par un autre groupe du MIT.

À l’aide d’une simple caméra Web, l’équipe a enregistré près de 200 objets, tels que des outils, des produits ménagers, des tissus et plus, qui ont été touchés plus de 12 000 fois. En décomposant ces 12 000 clips vidéo en images statiques, l’équipe a compilé « VisGel », un ensemble de données de plus de 3 millions d’images visuelles/tactiles par paires.

« En regardant la scène, notre modèle peut imaginer la sensation de toucher une surface plane ou un bord tranchant « , dit Yunzhu Li, doctorant et auteur principal du CSAIL sur un nouvel article concernant le système. « En se touchant aveuglément, notre modèle peut prédire l’interaction avec l’environnement à partir de sensations purement tactiles. L’association de ces deux sens pourrait renforcer le robot et réduire les données dont nous pourrions avoir besoin pour manipuler et saisir des objets. »

Des travaux récents visant à doter les robots de sens physiques plus humains, comme le projet 2016 du MIT, qui utilise l’apprentissage profond pour indiquer visuellement les sons, ou un modèle qui prédit les réactions des objets aux forces physiques, utilisent tous deux de grands ensembles de données qui ne sont pas disponibles pour comprendre les interactions entre vision et toucher.

La technique de l’équipe contourne ce problème en utilisant l’ensemble de données VisGel et ce que l’on appelle les réseaux accusatoires génératifs (GANs).

Les GAN utilisent des images visuelles ou tactiles pour générer des images dans l’autre modalité. Ils travaillent en utilisant un « générateur » et un « discriminateur » qui se font concurrence, où le générateur vise à créer des images réelles pour tromper le discriminateur. Chaque fois que le discriminateur « attrape » le générateur, il doit exposer le raisonnement interne de la décision, ce qui permet au générateur de s’améliorer sans cesse.

Vision à toucher

L’être humain peut déduire ce que ressent un objet simplement en le voyant. Pour mieux donner cette puissance aux machines, le système devait d’abord localiser la position du toucher, puis déduire des informations sur la forme et le toucher de la région.

Les images de référence – sans interaction robot-objet – ont aidé le système à coder des détails sur les objets et l’environnement. Ensuite, lorsque le bras du robot fonctionnait, le modèle pouvait simplement comparer le cadre actuel avec son image de référence, et identifier facilement l’emplacement et l’échelle du toucher.

Cela pourrait ressembler à l’alimentation du système avec l’image d’une souris d’ordinateur, puis à « voir » la zone où le modèle prévoit que l’objet doit être touché pour être ramassé – ce qui pourrait grandement aider les machines à planifier des actions plus sûres et plus efficaces.

Toucher à la vision

Pour le toucher à la vision, l’objectif était que le modèle produise une image visuelle basée sur des données tactiles. Le modèle a analysé une image tactile, puis a déterminé la forme et le matériau de la position de contact. Il s’est ensuite tourné vers l’image de référence pour « halluciner » l’interaction.

Par exemple, si au cours de l’essai, le modèle a reçu des données tactiles sur une chaussure, il pourrait produire une image de l’endroit où cette chaussure était la plus susceptible d’être touchée.

Ce type de capacité pourrait être utile pour accomplir des tâches dans les cas où il n’y a pas de données visuelles, comme lorsqu’une lumière est éteinte, ou si une personne est aveuglément en train d’atteindre une boîte ou un endroit inconnu.

Perspectives d’avenir

L’ensemble de données actuel ne contient que des exemples d’interactions dans un environnement contrôlé. L’équipe espère améliorer la situation en recueillant des données dans des zones plus non structurées ou en utilisant un nouveau gant tactile conçu par le MIT, afin d’augmenter la taille et la diversité de l’ensemble de données.

Il y a encore des détails qui peuvent être délicats à déduire d’un changement de mode, comme dire la couleur d’un objet en le touchant, ou dire à quel point un canapé est doux sans vraiment appuyer dessus.

Les chercheurs affirment que cela pourrait être amélioré en créant des modèles plus robustes pour l’incertitude, afin d’élargir la distribution des résultats possibles.

charles