La voix et le visage, ou l’étrange unité du corps simulé
Un film mal doublé est une expérience philosophique malgré lui. Pendant quelques secondes — le temps que le cerveau enregistre le décalage entre les lèvres et les mots —, on perçoit quelque chose qu’une synchronie parfaite dissimule entièrement : que la présence d’un être humain n’est pas un fait simple. Elle est une coordination continue entre des canaux que l’on croyait n’en former qu’un seul. La voix, le visage, la gestuelle — ces manifestations que l’on prend pour les expressions spontanées d’une même intériorité — sont en réalité des flux distincts que le corps orchestre avec une précision que l’attention ordinaire ne saurait mesurer. On ne remarque la solidité d’un plancher que lorsqu’il commence à céder ; on ne remarque la cohérence du corps que lorsqu’elle se dérègle.
C’est précisément cette cohérence — et la difficulté de la simuler — que s’efforce d’aborder le modèle génératif daVinci-MagiHuman, présenté comme un système à code source ouvert. La question qu’il pose n’est pas seulement technique : peut-on faire surgir, à partir d’une description textuelle, la présence cohérente d’un être humain ? Et si oui, qu’est-ce que cela nous dit sur la nature de cette présence ?
Sa particularité tient à un choix de conception que ses concepteurs appellent single-stream — « flux unique ». Dans la grande majorité des approches concurrentes, voix et image sont produites séparément, puis raccordées : un sous-système génère le visage, un second produit la parole, un troisième s’efforce de les faire coïncider. Ce montage après coup ressemble à ce que serait un duo musical où chaque musicien enregistrerait sa partie seul, chez lui, avant que l’on superpose les pistes en espérant que les tempos s’accordent. Cela peut donner de bons résultats. Cela ne donne jamais la même chose qu’une improvisation en face à face, où la voix du violon influe sur le phrasé du piano dans le même instant, où chaque geste répond à l’autre avant même d’avoir été décidé.
daVinci-MagiHuman opte pour l’autre voie. Texte, image et son y sont traités comme les éléments d’une seule séquence — ce que les ingénieurs nomment une séquence de tokens, d’unités d’information — traversée par un seul et même mécanisme d’attention. Le terme « attention » ici ne désigne pas une faculté psychologique : c’est le nom d’un procédé mathématique qui permet à chaque élément d’une séquence d’être influencé par tous les autres simultanément, dans une lecture croisée de l’ensemble. La synchronie n’est plus le résultat d’un montage externe : elle est censée émerger de la structure même du traitement. C’est la différence entre un chef d’orchestre qui réconcilie des musiciens et une partition qui se joue d’elle-même.
Il est encore trop tôt pour affirmer que cette approche résout le problème dans sa généralité. Les démonstrations disponibles portent sur des cas ciblés, et les comparaisons avec les systèmes multi-flux dominants demeurent difficiles à apprécier rigoureusement. Que le modèle soit qualifié de « fondation » — foundation model — signifie seulement qu’il est conçu pour être réutilisé et affiné par d’autres équipes, non qu’il constitue un aboutissement. C’est une promesse d’infrastructure, pas un résultat établi.
Une incertitude supplémentaire mérite d’être mentionnée, et elle n’est pas mince. La référence académique associée à ce travail pointe vers un identifiant bibliographique correspondant à la plateforme Cairn.info — habituellement consacrée aux sciences humaines francophones. Ce n’est pas le domicile naturel d’un article d’apprentissage automatique. La provenance réelle de ce papier n’a pu être vérifiée directement, et cette opacité devrait tempérer l’enthousiasme — non l’étouffer, mais l’équilibrer.
Ce que la question éthique ajoute à la question technique est peut-être plus vertigineux encore. Un modèle ouvert, librement téléchargeable, capable de générer un personnage humain cohérent en voix et en image, modifie le paysage des possibles d’une façon qui mérite d’être regardée en face. Les usages légitimes sont nombreux et réels : accessibilité, création artistique, simulation pédagogique, localisation multilingue de contenus audiovisuels. Mais la même architecture — précisément parce qu’elle traite son et image dans un flux unifié — rend structurellement plus difficile la détection des contrefaçons. Les incohérences de synchronie constituent aujourd’hui l’un des principaux marqueurs des vidéos synthétiques ; si ces incohérences sont absorbées par la conception même du modèle, les outils de détection actuels se trouvent privés d’une partie de leur prise. Des travaux récents — notamment sur la vérification du locuteur pour distinguer une voix originale de son clone — montrent que cette course entre la génération et la détection est loin d’être achevée, et que chaque progrès de l’une oblige l’autre à se réinventer.
La question du consentement se pose alors avec une netteté particulière. Produire une représentation cohérente d’une personne réelle — son visage, sa voix, sa gestuelle — sans son autorisation n’est pas simplement une infraction juridique : c’est une atteinte à ce que l’on pourrait appeler l’intégrité narrative de la personne, son droit à ne pas se voir attribuer des paroles et des actes qu’elle n’a pas proférés ni accomplis. Et le fait que la technologie soit ouverte ne résout rien — bien au contraire, il dissout la responsabilité là où elle était encore localisable, la dispersant de l’éditeur vers la multitude diffuse de ceux qui pourront la déployer.
Ce n’est pas la première fois dans l’histoire des sciences qu’une avancée formelle soulève des questions que les outils formels ne permettent pas de trancher. La mécanique quantique, née au début du XXe siècle, fournit des prédictions d’une précision sans équivalent — et laisse entière la question de savoir ce qu’elle décrit réellement. Il en va peut-être de même ici. daVinci-MagiHuman peut fonctionner — produire une cohérence mesurable, appréciable, convaincante. Mais il laisse entière une autre question, celle que la technique ne saurait résoudre parce qu’elle ne relève pas de son ressort : qu’est-ce qui fait qu’une présence humaine est, en elle-même, irréductible à la synchronie de ses manifestations ? Qu’est-ce qui distingue un corps qui parle d’une simulation parfaite de ce corps ? Si la différence ne se perçoit plus — si le film mal doublé n’existe plus parce que le doublage est devenu parfait —, est-ce que la différence, pour autant, a disparu ?
Nul ne le sait. Et c’est peut-être là que commence la vraie question.
Sources
- https://doi.org/10.3917/gmp.pr1.0012
- ⚠️ Aucun dépôt GitHub ni lien vers papier arXiv identifiable dans les informations disponibles — les sources primaires n’ont pas pu être confirmées