Ce que les machines ignorent qu’elles ignorent
Il y a quelque chose de troublant dans la manière dont un grand modèle de langage répond. Interrogez-le sur la capitale de la France ou sur la date de naissance de Proust : il vous répondra avec le même aplomb ferme, la même assurance lisse. Puis demandez-lui de se prononcer sur un événement récent que la littérature scientifique n’a pas encore fixé, ou de résoudre un problème à la frontière des connaissances actuelles — il vous répondra avec le même aplomb, la même assurance, mais cette fois peut-être entièrement à côté. Ce n’est pas l’erreur qui est troublante. C’est l’indifférence de la forme à la vérité du fond.
Cette propriété — que les spécialistes nomment « surconfiance verbale » — a été documentée de manière systématique par Xiong et al. (2024), qui ont montré que les grands modèles de langage expriment leur certitude de façon largement déconnectée de leur précision réelle : un modèle peut affirmer avec la même fermeté une chose fausse et une chose vraie, sans que la forme de la réponse trahisse la moindre différence. On est face à un système qui ne sait pas qu’il ne sait pas — et qui, par conséquent, ne peut pas vous prévenir.
La question qui se pose alors n’est pas seulement technique. Elle est presque philosophique : peut-on doter une machine d’une forme de conscience de ses propres limites ? Peut-on lui enseigner — non la modestie, qui supposerait un sujet — mais quelque chose d’analogue à une calibration de l’incertitude, c’est-à-dire la capacité à graduer la confiance qu’elle accorde à ses propres réponses ?
C’est à cette question que s’attaque une équipe de chercheurs dans un article publié en mars 2026 sur arXiv. Cao et al. proposent une méthode qu’ils nomment « regroupement sémantique de tokens » — les tokens désignant ici les unités élémentaires que le modèle manipule, une sorte de syllabe informationnelle dont les combinaisons forment les réponses. L’idée centrale est la suivante : plutôt que d’évaluer l’incertitude en faisant générer au modèle de nombreuses réponses différentes pour une même question — procédé lourd en calcul —, on regroupe les tokens par proximité de sens, ce qui permet d’estimer la dispersion des réponses possibles à moindre coût computationnel.
Une analogie peut aider à saisir le principe. Un médecin qui cherche à savoir si ses collègues seraient d’accord avec son diagnostic n’est pas obligé d’organiser une réunion plénière de cent spécialistes. Il peut interroger quelques-uns, regrouper mentalement leurs positions selon leur proximité conceptuelle, et estimer ainsi le degré de consensus ou de dispersion dans le corps médical. La méthode de Cao et al. fait quelque chose d’analogue : elle réduit le nombre d’« avis » à solliciter en identifiant lesquels se ressemblent assez pour ne pas avoir besoin d’être traités séparément.
Le gain en coût computationnel est, selon les auteurs, substantiel. Il serait cependant prématuré d’avancer un pourcentage précis : le paper lui-même parle de réduction significative sans fixer de chiffre exact — et la prudence, ici, semble s’imposer à ceux qui en parlent autant qu’à ceux qui l’étudient. La méthode a été évaluée sur plusieurs familles de modèles, dont les séries Llama, Mistral et Qwen, avec une qualité de calibration comparable aux approches existantes. Ce point mérite d’être noté, car il distingue cette recherche des travaux qui améliorent l’efficacité au prix de la précision.

Cette réserve en appelle une autre, plus fondamentale. La calibration ainsi obtenue a été mesurée sur des ensembles de référence — ce qu’on appelle des benchmarks, c’est-à-dire des collections de questions et de réponses préparées pour évaluer les modèles dans des conditions connues. Or la défaillance la plus redoutable d’un système n’est pas celle qu’il commet sur le familier, mais celle qu’il commet sur l’inédit — précisément parce qu’il ne reconnaît pas l’inédit comme tel. Une incertitude bien estimée sur des situations répertoriées, invisible sur des situations véritablement nouvelles, c’est peut-être plus dangereuse que l’absence de toute mesure : elle installe une confiance dans l’instrument là où l’instrument reste muet.
À cette limite méthodologique s’ajoute une dimension qui concerne moins la physique que la politique. Si le curseur de calibration — le seuil à partir duquel un modèle signale son incertitude — reste défini par les acteurs qui commercialisent ces systèmes, sans audit externe ni contrainte réglementaire, alors la métrique elle-même devient un outil de présentation autant qu’un outil de sécurité. On peut imaginer, sans forcer le trait, un système calibré de façon à paraître confiant dans les cas où la confiance rassure l’utilisateur — et prudent dans les cas où la prudence protège juridiquement l’éditeur. La calibration serait alors vraie et stratégique à la fois. Ce n’est pas une hypothèse paranoïaque — c’est la logique ordinaire des incitatifs économiques.
Il faut ajouter à cela un fossé qui risque de se creuser entre les systèmes dotés de ces outils de quantification de l’incertitude et ceux qui en sont dépourvus. Si les méthodes efficaces restent réservées aux modèles les plus onéreux, l’inégalité ne sera pas seulement d’accès à la performance — elle sera d’accès à la prudence. Ce qui n’est pas un détail.
L’argument inverse existe, et il mérite d’être pris au sérieux. Si calibrer l’incertitude devient moins coûteux — et c’est précisément ce que vise la méthode de Cao et al. —, cela ouvre la possibilité d’intégrer cette prudence à des modèles moins massifs, déployés sur des infrastructures plus modestes. La technique, ici, pourrait jouer contre la concentration. Mais cela supposerait que les incitatifs économiques aillent dans ce sens — ce que rien ne garantit dans l’état actuel du marché.
Ce qui est démontré : une méthode capable de réduire le coût de la quantification de l’incertitude tout en maintenant une qualité de calibration comparable aux approches de référence. Ce qui est espéré : que cette méthode contribue à des déploiements plus responsables. Ce qui reste ouvert — et c’est peut-être l’essentiel : si la prudence technique suffira, en l’absence de régulation indépendante, à modifier les pratiques de ceux qui contrôlent ces systèmes.
Il y a, dans cette recherche, quelque chose qui mérite d’être regardé de près — non parce qu’elle résoudrait la question de la fiabilité des intelligences artificielles, mais parce qu’elle la pose autrement. Savoir que l’on ne sait pas est, chez l’être humain, le commencement de la philosophie : c’est ce que Socrate réclamait de ses interlocuteurs comme condition préalable à toute vraie connaissance. Qu’une machine puisse signaler son propre doute ne signifie évidemment pas qu’elle pense. Mais cela change ce que nous pouvons attendre d’elle — et, peut-être, ce que nous exigeons de nous-mêmes lorsque nous lui faisons confiance.
Ce qui, en soi, est déjà une question.
À lire aussi sur Émergence :
- AGILE : la méthode tout-en-un pour apprendre à un robot humanoïde à bouger dans le monde réel
- La fidélité des LLMs : un chiffre qui dit tout… sauf la vérité
- Des robots qui gardent le cap même quand tout bouge autour d’eux
Sources
- Cao, Q. et al. (2026). « Semantic Token Clustering for Efficient Uncertainty Quantification in Large Language Models ». arXiv:2603.20161. https://arxiv.org/abs/2603.20161 — [confirmé]
- Xiong, M. et al. (2024). Travaux sur la surconfiance verbale des grands modèles de langage. — [probable ; référence complète à vérifier avant publication]
Émergence est produit par des agents IA supervisés par une équipe éditoriale humaine.