La carte et le mouvement, ou ce qu’un robot ne sait pas encore voir
Il y a une difficulté que l’on n’aperçoit pas immédiatement lorsqu’on évoque des robots capables de se déplacer dans nos rues ou nos couloirs d’hôpital : le monde dans lequel ils évoluent a la mauvaise habitude de ne pas rester en place. Un passant traverse, une chaise est déplacée, un enfant court. Pour un être humain, ces perturbations sont en quelque sorte transparentes — nous les intégrons sans même nous en rendre compte, sans distinguer l’effort que cela représente. Pour un robot qui tente simultanément de se localiser et de construire une carte de son environnement, elles constituent un problème d’une tout autre nature.
Ce problème porte un nom : le SLAM, acronyme anglais pour Simultaneous Localization And Mapping — que l’on traduit généralement par « localisation et cartographie simultanées ». L’idée, dans sa forme la plus dépouillée, ressemble à celle d’un voyageur qui dessinerait une carte au fur et à mesure qu’il avance, en se servant de cette même carte pour savoir où il se trouve. Ce cercle apparent — comment utiliser une carte qu’on est précisément en train de faire ? — n’est pas seulement une image ; il désigne une tension mathématique réelle que les chercheurs en robotique ont mis plusieurs décennies à domestiquer, depuis les premières formulations probabilistes des années 1980 jusqu’aux architectures actuelles fondées sur l’apprentissage profond.
Pendant longtemps, le SLAM a été conçu pour un monde immobile. Ou plutôt : il a été conçu en faisant comme si le monde l’était. Les algorithmes classiques s’appuient sur des points caractéristiques — une arête, un coin, une texture particulière — que la caméra retrouve d’une image à l’autre pour inférer le déplacement du robot. Cette hypothèse de stabilité fonctionne raisonnablement bien dans des environnements vides, mais elle se défait dès qu’apparaît ce que les spécialistes appellent un « objet dynamique » — c’est-à-dire, simplement, quelque chose qui bouge. Un piéton, une voiture, une porte qui s’ouvre. Chacun de ces éléments introduit dans les calculs une information fausse : le robot croit qu’il se déplace, alors que c’est le monde autour de lui qui s’est modifié.
La première réponse à ce problème a été d’enseigner au robot à reconnaître les objets susceptibles de bouger, pour les ignorer. Des systèmes comme DynaSLAM, développé par Bescos et ses collaborateurs en 2019, utilisent en ce sens un réseau de neurones — Mask R-CNN, un outil de détection d’objets mis au point quelques années plus tôt — pour identifier dans le champ visuel les catégories connues d’objets mobiles : personnes, véhicules, animaux. Ces régions sont ensuite masquées avant que l’algorithme de cartographie n’entre en jeu, comme si on effaçait au crayon les éléments instables d’un dessin avant de le photographier.
C’est une solution élégante, mais elle porte en elle-même sa propre limite. Elle ne peut reconnaître que ce qu’elle a appris à reconnaître. Un robot entraîné à ignorer les piétons restera aveugle à un objet inconnu qui se déplace — une sculpture animée, un meuble roulant, un animal de compagnie inhabituel. Le problème n’est pas résolu : il est déplacé. On a substitué à une difficulté algorithmique une dépendance à un catalogue de formes préalablement répertoriées.

C’est ici que des approches plus récentes, comme TartanVO — présentée par Wang et ses collaborateurs en 2021 —, tentent de franchir un pas supplémentaire. Plutôt que d’apprendre à reconnaître des catégories d’objets mobiles, ces méthodes cherchent à apprendre directement la structure du mouvement lui-même, en s’entraînant sur des environnements extrêmement variés. L’idée sous-jacente est qu’un système suffisamment exposé à la diversité du monde développera une forme de robustesse générale — non pas parce qu’il connaît tous les objets possibles, mais parce qu’il a appris à distinguer ce qui est stable de ce qui ne l’est pas, indépendamment de la nature précise de ce qui bouge.
À cela s’ajoute une technique que les spécialistes nomment « ajustement de faisceau » — ou bundle adjustment, dans la terminologie d’origine — différentiable. Derrière ce terme un peu austère se cache une idée assez limpide : il s’agit d’une procédure d’optimisation qui, à partir d’une série d’images successives, raffine simultanément l’estimation de la position de la caméra et la structure tridimensionnelle de la scène. « Différentiable » signifie que cette optimisation peut être intégrée dans un réseau de neurones et apprise par l’expérience, plutôt que d’être fixée une fois pour toutes par des règles mathématiques rigides. C’est la différence entre un cartographe qui suit des instructions et un cartographe qui apprend de ses erreurs.
Un autre point mérite d’être signalé, car il a des implications pratiques considérables : les systèmes les plus prometteurs tendent à fonctionner avec une simple caméra couleur ordinaire — une caméra dite RGB, pour red, green, blue, les trois canaux de couleur —, sans recourir au LiDAR. Ce dernier — un système qui émet des impulsions lumineuses et mesure leur temps de retour pour construire une carte en relief — est précis, mais encombrant, coûteux et gourmand en énergie. ORB-SLAM3, le système documenté par Campos et ses collaborateurs en 2021, illustre cette tendance : il prend en entrée un flux d’images couleur standard et parvient, dans des conditions favorables, à maintenir une localisation cohérente même lorsque des éléments de la scène se déplacent. La vision seule, en somme, n’est pas si aveugle — pourvu qu’on lui enseigne à bien regarder.
Il faut cependant s’arrêter sur ce que ces travaux ne règlent pas, ou pas encore. Les évaluations publiées portent majoritairement sur des environnements de laboratoire ou des séquences vidéo soigneusement annotées — des conditions qui, si elles permettent de comparer rigoureusement les méthodes entre elles, restent éloignées du chaos d’un marché animé ou d’une gare aux heures de pointe. La robustesse affichée dans ces conditions contrôlées constitue-t-elle une garantie pour le monde ouvert ? Il est encore trop tôt pour l’affirmer. Les chercheurs eux-mêmes notent que leurs systèmes se fragilisent dès que le nombre d’objets dynamiques dépasse un certain seuil, ou que les conditions d’éclairage varient brutalement. La carte, pour l’instant, résiste mieux à la théorie qu’à la pluie.
Reste une question que la littérature technique traite rarement avec la rigueur qu’elle mérite : que font ces robots de ce qu’ils voient ? Un système de SLAM embarqué dans un véhicule autonome ou un robot de livraison ne cartographie pas seulement l’espace — il enregistre, image par image, tout ce que sa caméra capture. Des visages. Des plaques d’immatriculation. Des comportements. Des habitudes. Ces données, collectées en continu dans des espaces publics, ne disparaissent pas après usage. En Europe, le Règlement général sur la protection des données — le RGPD — impose en principe un cadre strict à leur traitement : minimisation des données collectées, limitation de leur durée de conservation, consentement des personnes concernées lorsqu’elles sont identifiables. Mais l’application de ces principes à la robotique mobile reste, dans les faits, largement indéterminée. Qui est responsable des données produites par un robot qui cartographie une rue ? Le fabricant du robot, l’entreprise qui le déploie, la collectivité qui a autorisé sa circulation ? Dans de nombreux pays, la question est simplement sans réponse juridique établie. Ce vide n’est pas un détail administratif : il conditionne la légitimité même du déploiement de ces technologies dans l’espace commun.
Ce que ces recherches révèlent, au fond, c’est que la question de la navigation robotique en environnement dynamique n’est pas seulement une question d’ingénierie. Elle convoque une interrogation plus ancienne : qu’est-ce que percevoir ? Un robot qui « voit » un piéton et l’efface de sa carte ne perçoit pas vraiment le piéton — il gère une perturbation. Un robot qui distingue ce qui bouge de ce qui reste stable sans savoir nommer ce qui bouge s’approche peut-être de quelque chose de plus fondamental, quelque chose qui ressemble moins à une base de données qu’à une forme rudimentaire d’attention. Mais entre gérer une perturbation et comprendre un monde en mouvement, la distance reste considérable. Et ce que nous ne savons pas encore mesurer, c’est précisément ce qui se passe dans cet intervalle.
Sources
Bescos, B., Fácil, J. M., Civera, J., & Neira, J. (2019). DynaSLAM : Tracking, Mapping, and Inpainting in Dynamic Scenes. IEEE Robotics and Automation Letters. arXiv:1806.05620
Wang, W., Hu, Y., & Scherer, S. (2021). TartanVO : A Generalizable Learning-based VO. Conference on Robot Learning (CoRL). arXiv:2011.00359
Campos, C., Elvira, R., Rodríguez, J. J. G., Montiel, J. M. M., & Tardós, J. D. (2021). ORB-SLAM3 : An Accurate Open-Source Library for Visual, Visual-Inertial, and Multimap SLAM. IEEE Transactions on Robotics. arXiv:2007.11898