Quand le modèle triche sans le savoir : l’apprentissage contrastif à la rescousse de la cybersécurité
93 % de précision en laboratoire. 50 % en production, trois mois plus tard — à peine mieux qu’un tirage à pile ou face. Ce n’est pas l’histoire d’un bug, ni d’une malveillance. C’est l’histoire d’un modèle qui n’a jamais appris ce qu’est une injection SQL. Il a appris à reconnaître les données qu’on lui avait montrées.
Ce phénomène a un nom : le raccourci d’apprentissage (shortcut learning), formalisé en 2020 par Geirhos et ses collaborateurs dans Nature Machine Intelligence. Plutôt que d’identifier les caractéristiques sémantiques d’une attaque — sa structure logique, son intention, le mécanisme qu’elle exploite —, le modèle s’accroche à des corrélations superficielles propres à sa période d’entraînement : un encodage spécifique, un horodatage récurrent, la fréquence d’apparition d’un opérateur SQL dans les données de 2022. Ces signaux sont prédictifs pendant l’entraînement, puis s’évaporent quand le monde change. L’analogie est prosaïque mais exacte : un étudiant qui aurait mémorisé les réponses d’un corrigé sans jamais comprendre le raisonnement sous-jacent obtiendrait exactement ce profil — excellent sur les sujets déjà vus, désarmé devant les problèmes inédits.
Huang, Valentim, Vassio, Boffa, Mellia, Drago et Rossi — chercheurs des universités polytechnique et de Turin, avec le centre de recherche parisien de Huawei — documentent ce diagnostic avec rigueur dans un article déposé sur arXiv en mars 2026 (arXiv:2603.20181v1). Leur proposition : mobiliser la sémantique du texte pour enseigner aux modèles ce que les données réseau, trop bruyantes, échouent à transmettre.
Le protocole qui met tout à plat
La démonstration commence par un acte de franchise méthodologique rare. Les auteurs évaluent leurs modèles selon deux protocoles distincts. Le premier, dominant dans la littérature, découpe aléatoirement les données entre entraînement et test — les attaques de 2022 côtoient celles de 2024 dans les deux ensembles. Le second, plus réaliste, respecte la chronologie : tout ce qui précède le 1er janvier 2023 sert à entraîner, tout ce qui suit sert à évaluer. C’est la différence entre apprendre à passer un examen avec les sujets de l’année précédente mélangés aux sujets d’entraînement, ou avec une frontière temporelle nette.
Le résultat est cinglant. Sur le protocole aléatoire, tous les modèles testés dépassent 0,84 de précision. Sur le protocole temporel, le même champion chute de 0,93 à 0,62 — une perte de 31 points de pourcentage. L’écart n’est pas une bizarrerie statistique : c’est la mesure exacte de ce que les modèles avaient mémorisé sans comprendre.
Le jeu de données est substantiel : 29 675 descriptions textuelles de vulnérabilités, 601 518 charges utiles réseau (payloads — des paquets de données malveillants capturés sur des systèmes de prévention d’intrusion réels), répartis en 15 catégories d’attaques. Mais la distribution est profondément déséquilibrée : la classe “exécution de code” compte 167 000 exemples ; la classe “cheval de Troie”, 72. Ce déséquilibre conditionne l’interprétation de tous les résultats qui suivent.
Deux langues, un espace commun
L’idée centrale de SALM (Semantically Aligned Language Models) s’inspire d’une stratégie qui a transformé la vision par ordinateur — notamment le modèle CLIP d’OpenAI en 2021. Elle repose sur une observation simple : les charges utiles réseau sont pauvres en sens explicite (du code encodé, des séquences d’octets, des fragments de requêtes), tandis que les descriptions textuelles de vulnérabilités — rapports CVE, documentation technique, taxonomies d’attaques — sont denses en sémantique. Pourquoi ne pas laisser le texte enseigner au modèle réseau ce qu’il ne peut pas apprendre seul ?
La métaphore géographique aide ici. Imaginez un atlas où chaque type d’attaque occupe une région distincte du globe. L’objectif est de placer les descriptions textuelles d’injections SQL dans la même région que les charges utiles d’injection SQL — même si ces deux modalités n’ont a priori rien en commun. Une fois cette géographie établie, classer une nouvelle charge utile revient à demander : dans quelle région du globe tombe-t-elle ?
La procédure technique se déroule en deux étapes. Dans la première, un encodeur de texte fondé sur le modèle instructor-base (110 millions de paramètres, architecture T5) est entraîné par apprentissage contrastif sur 127 630 triplets. Un triplet est formé d’une description ancre, d’une description positive (même type de vulnérabilité) et d’une description négative (type différent). La perte d’entraînement contraint les représentations du même type à se rapprocher dans un espace vectoriel à 768 dimensions, et celles de types différents à s’éloigner. Dans la seconde étape, cet encodeur textuel est gelé. Un encodeur de charges utiles est entraîné pour minimiser la distance euclidienne entre chaque charge utile et la description textuelle de la vulnérabilité correspondante. À l’inférence, la classification se fait par recherche du prototype textuel le plus proche parmi 15 candidats génériques.
Ce choix de prototypes génériques — phrases comme “attaque par injection SQL” ou “accès non autorisé à des fichiers” — est délibéré : il interdit au modèle de mémoriser des artefacts spécifiques à l’entraînement, puisque ces phrases n’en contiennent aucun.
Ce que les chiffres disent, et ce qu’ils taisent
Sur le protocole temporel, SALM obtient 68,1 % de précision — contre 65,7 % pour l’approche lexicale classique (TF-IDF avec forêt aléatoire), 62,3 % pour l’affinage supervisé de CodeBERT, et 48,9 % pour la simple recherche par similarité d’enchâssements. Une progression mesurable. Mais un second indicateur raconte une histoire plus nuancée.
Le F1 macro — qui pondère également toutes les classes, indépendamment de leur fréquence — n’atteint que 30,1 % pour SALM. L’écart entre 68,1 % et 30,1 % a une interprétation précise : le modèle reconnaît bien les classes fréquentes (exécution de code, injection, divulgation d’informations) et échoue sur les classes rares. Pour “cheval de Troie”, “ver” et “inclusion de fichier distant”, le F1 est nul — pour toutes les méthodes testées. Une précision de 68 %, dans ce contexte, signifie surtout que le modèle identifie correctement les attaques les plus communes. La rareté reste un mur.
Le test sur données synthétiques — charges utiles générées par trois grands modèles de langage (Gemini 2.5 Flash, DeepSeek-V3, Qwen3-Max) à partir d’indicateurs de compromission publics — est encore plus instructif. SALM n’y obtient que 24,4 %, contre 20,6 % pour son meilleur concurrent. L’amélioration relative (+19 % relatif) masque des performances absolues médiocres. Et cela soulève une question que l’article laisse ouverte : si le modèle peine à généraliser à des charges utiles construites par des modèles de langage, que se passerait-il face à un attaquant humain qui aurait précisément étudié ses angles morts ?
Une honnêteté qui mérite d’être nommée
Les auteurs écrivent sans ambages que 0,68 de précision “reste loin d’une fiabilité utilisable en production” et que leur approche constitue “une première étape”. Dans un domaine régulièrement épinglé pour ses performances gonflées — Arp et ses collaborateurs avaient recensé en 2022 dix biais systématiques dans la littérature de détection d’intrusion —, cette retenue est une position épistémique saine.
Un élément de contexte mérite cependant d’être explicité. Les données propriétaires proviennent d’une base de renseignement sur les menaces opérée par Huawei, capturées sur des systèmes déployés chez des clients de cet opérateur. L’un des auteurs est affilié au centre de recherche parisien de Huawei, et le travail est financé par Huawei Technologies France dans le cadre du projet “AISN – AI Secured Networks”. Ce n’est pas un conflit d’intérêt qui invalide les résultats — les données d’exploits réels sont rares et précieuses —, mais il limite la reproductibilité indépendante de l’évaluation. La publication du code source et du jeu de données synthétique compense partiellement cette contrainte.
La taxonomie des 15 classes pose par ailleurs un problème structurel que les auteurs reconnaissent : elle mélange des niveaux d’abstraction hétérogènes (techniques d’exploitation, types de logiciels malveillants, vecteurs d’attaque), et ses définitions reflètent les pratiques internes d’un opérateur plutôt qu’une classification universellement admise comme CWE (Common Weakness Enumeration). Certaines classes se chevauchent sémantiquement. Le F1 nul sur plusieurs catégories pour toutes les méthodes testées s’explique au moins partiellement par ce problème de spécification — un problème dont la solution appartient moins à l’apprentissage automatique qu’à la nosologie des attaques informatiques.
La question que le papier ne pose pas encore
L’apprentissage contrastif multi-modal n’est pas une réponse à la fragilité des modèles de cybersécurité. C’est une intuition confirmée expérimentalement : mobiliser la sémantique du texte pour guider l’apprentissage sur des données réseau pauvres en sens atténue, sans l’éliminer, le phénomène de raccourci. La direction est bonne. La distance à parcourir reste considérable.
Mais la vraie question n’est peut-être pas celle de la précision. C’est celle de la robustesse adversariale. Un étudiant qui comprendrait réellement la substance d’un problème serait plus difficile à piéger par un examinateur malveillant qu’un autre qui aurait mémorisé les corrigés. Si SALM apprend effectivement quelque chose de la sémantique des attaques — et non des corrélations superficielles d’une base propriétaire —, il devrait être plus résistant qu’un modèle classique aux charges utiles délibérément conçues pour ressembler à des trafics bénins. Cette propriété, si elle se vérifiait, vaudrait bien plus que trois points de précision sur un benchmark. L’article ne la teste pas. C’est, peut-être, le prochain papier à écrire.
Sources
- Said Hayar, Laurent Mériade, “La diffusion des outils et services e-santé auprès de leurs utilisateurs : l’exemple de « Mon espace santé » en France”, Gestion et management public, 2050. DOI: 10.3917/gmp.pr1.0012
- Aurélien Rouquet, Pierre Lescoat, Antoine Souchaud et al., “Dynamiser le commerce de centre-ville : typologies des logiques organisationnelles suivies par les villes françaises”, Gestion et management public, 2050. DOI: 10.3917/gmp.pr1.0024
- Meriam Karaa, Philippe Brest, “Écologisation de la restauration collective publique : freins et leviers à la mise en œuvre de la loi EGalim”, Gestion et management public, 2050. DOI: 10.3917/gmp.pr1.0015
- Isabelle Barth, Marie Stadge, “Pour une Responsabilité Sociétale de l’Université intégrée”, Gestion et management public, 2050. DOI: 10.3917/gmp.pr1.0020
- Angélique Maquart, Laëtitia Lethielleux, “Gouvernance publique hospitalière : entre paradoxes et tensions. Le point de vue des cadres de santé”, Gestion et management public, 2050. DOI: 10.3917/gmp.pr1.0011
