Le texte pris dans le brouillard — et l’art d’en sortir plus vite

Il faut parfois plusieurs dizaines d’étapes pour qu’un modèle de diffusion produise une phrase. Chaque étape ressemble à ce geste du photographe de chambre qui développe lentement son négatif dans le bain révélateur : le bruit recule, la forme émerge, le sens se précise. C’est beau à concevoir — et c’est d’une lenteur que les ingénieurs jugent difficilement acceptable. Le problème que pose un récent travail de recherche autour de ce qu’il nomme D-MMD — pour Discrete diffusion with Moment Matching Distillation, soit la distillation par appariement de moments appliquée aux modèles de diffusion discrets — est au fond très simple : peut-on traverser ce brouillard en moins d’étapes sans perdre en chemin ce qu’on était venu chercher ?

La question mérite d’être posée avec soin, parce qu’elle engage une tension plus profonde que la seule efficacité computationnelle.

Les modèles de diffusion — ceux qui ont rendu possible la génération d’images par Stable Diffusion, dont l’architecture fondée sur ce principe est bien documentée — reposent sur une idée que l’on peut décrire ainsi : on apprend d’abord à corrompre une donnée, à la noyer progressivement dans du bruit aléatoire, puis on apprend à inverser ce processus, à reconstruire le signal depuis le chaos. Pour les images, ce bruit est continu, il se laisse manier par le calcul différentiel ordinaire. Pour le texte, en revanche, les données sont discrètes — des mots, des tokens, des unités qui ne tolèrent pas qu’on leur applique une dérivée. On ne passe pas graduellement du mot « chat » au mot « chien » comme on passe du rouge au rose.

Cette distinction — continue versus discrète — n’est pas un détail d’implémentation. Elle correspond à deux régimes mathématiques profondément différents, et c’est précisément ce fossé qui rend la distillation des modèles de diffusion textuels si délicate.

Qu’est-ce que « distiller » un tel modèle ? L’idée est celle de la compression du savoir : on prend un modèle « enseignant » qui a appris à générer du texte en, disons, plusieurs centaines d’étapes, et l’on cherche à transmettre ce savoir à un modèle « élève » capable d’obtenir des résultats comparables en bien moins d’étapes. Pour les images, plusieurs voies ont déjà été défrichées. DDIM — Denoising Diffusion Implicit Models, soit les modèles de diffusion implicite sans bruit — a réduit le nombre d’étapes nécessaires de mille environ à une cinquantaine, en reformulant la trajectoire de débruitage comme un chemin déterministe plutôt que stochastique. Ce n’est pas rien. Mais ce sont les Consistency Models, introduits plus récemment par Yang Song et ses collaborateurs, qui ont atteint des régimes de l’ordre de quatre étapes, voire d’une seule, en apprenant directement à mapper n’importe quel point bruité vers son origine propre. Ces deux approches — DDIM et Consistency Models — sont souvent confondues dans le débat public, alors qu’elles procèdent de logiques fort distinctes et atteignent des gains d’efficacité sans commune mesure.

Le problème que traite D-MMD se situe dans un terrain encore moins balisé : celui de la diffusion sur des séquences de texte. Les méthodes de distillation qui fonctionnent bien pour les images se heurtent ici à un obstacle caractéristique, que les auteurs nomment le « collapse » — l’effondrement. Quand on compresse trop agressivement un modèle discret, il tend à s’appauvrir, à répéter les mêmes structures, à perdre cette diversité sémantique qui fait la richesse d’un texte généré. L’analogie serait celle d’un musicien de jazz à qui l’on demanderait d’improviser en deux notes au lieu de deux cents : techniquement faisable, artistiquement catastrophique.

Pour contourner cet effondrement, D-MMD recourt à une technique dite d’« appariement de moments » — moment matching en anglais, expression que l’on peut conserver ici parce qu’elle désigne un concept précis. En statistiques, les « moments » d’une distribution sont ses propriétés fondamentales : sa moyenne, sa variance, son asymétrie, et ainsi de suite. Apparier les moments, c’est contraindre le modèle élève à reproduire non pas chaque décision individuelle du maître, mais la structure statistique globale de ses sorties. On ne lui demande pas de copier chaque pas de danse — on lui demande que sa danse ait le même centre de gravité, la même amplitude, le même rythme de fond. Selon les auteurs, cette stratégie permettrait d’atteindre des performances notables sur plusieurs métriques standard d’évaluation de la qualité textuelle — dont le FID, ou Fréchet Inception Distance, un indice qui mesure l’écart entre deux distributions de textes générés, avec des valeurs comprises, selon les conditions décrites dans le papier, autour de 0,275, 0,236 et 0,061 selon les configurations testées. Il convient d’indiquer que ces chiffres proviennent directement des auteurs et n’ont pas, à ce stade, fait l’objet d’une réplication indépendante publiée.

C’est là que la prudence s’impose — et qu’elle révèle quelque chose d’intéressant sur l’état de ce champ.

Les métriques de la génération de texte sont notoirement difficiles à interpréter. Le FID, conçu à l’origine pour les images, a été adapté au texte, mais cette adaptation elle-même fait l’objet de débats. Un modèle peut obtenir d’excellents scores sur un tel indice et produire des textes que nul lecteur humain ne jugerait satisfaisants — ou, à l’inverse, des textes que nul benchmark ne saurait distinguer du médiocre. Les auteurs de D-MMD ont choisi leurs distributions de test, leurs métriques, leurs conditions d’évaluation. Ce n’est pas une accusation — c’est la structure normale de la publication scientifique. Mais cela implique que les gains annoncés doivent être lus comme des résultats sur des distributions favorables, non comme une preuve de robustesse en conditions réelles et variées.

Il faut aussi nommer une question que les papiers techniques tendent à laisser en dehors de leur périmètre : celle des conséquences d’une génération plus rapide et moins coûteuse. L’économiste William Stanley Jevons, au xixe siècle, avait observé que l’amélioration de l’efficacité des machines à vapeur n’avait pas réduit la consommation de charbon — elle l’avait augmentée, parce qu’une machine plus efficace devient rentable dans davantage de contextes. Ce paradoxe, dit paradoxe de Jevons, vaut sans doute pour la génération de texte : abaisser les coûts computationnels ne réduit pas nécessairement l’empreinte totale du système. Cela peut très bien l’élargir.

Reste une question que D-MMD, comme la quasi-totalité des travaux de distillation, ne pose pas vraiment : le modèle élève hérite-t-il des biais du maître, ou les distille-t-il aussi ? Un apprenti qui apprend auprès d’un professeur doué mais partial ne reproduit pas seulement les vertus de son maître — il en reproduit aussi, parfois en les amplifiant, les angles morts.

Les modèles de diffusion pour le texte sont encore jeunes. Les méthodes de distillation qui les accélèrent le sont davantage. La question de ce qu’ils transportent avec eux, dans leur brouillard compressé, reste ouverte.


Sources

Les sources primaires de cet article correspondent au manuscrit de recherche présentant D-MMD (Discrete Diffusion with Moment Matching Distillation). Aucun identifiant arXiv vérifié n’étant disponible dans les documents fournis, aucun DOI n’est cité. Les chiffres de métriques (FID : 0,275 / 0,236 / 0,061) sont rapportés selon les auteurs et n’ont pas été vérifiés par réplication indépendante.

Sur les Consistency Models : Song, Y. et al., « Consistency Models », arXiv:2303.01469, 2023.

Sur DDIM : Song, J. et al., « Denoising Diffusion Implicit Models », arXiv:2010.02502, 2020.