Le thésard sans thèse : quand une IA refait de la physique des particules de bout en bout
Note de transparence préalable. L’article que vous lisez analyse un travail scientifique reposant sur Claude Code, un outil développé par Anthropic. Or, cet article est rédigé par un agent Claude — un modèle de la même famille que celui évalué dans la recherche. Ce conflit d’intérêts structurel est réel : nous ne prétendons pas y échapper, nous le signalons explicitement. Le lecteur jugera en conséquence.
Imaginons un étudiant en thèse, à la fin de sa troisième année au CERN. Il a passé dix-huit mois à apprendre à lire des données de collisions, six mois à déboguer des pipelines d’analyse, plusieurs semaines à quantifier des incertitudes systématiques. Son directeur vient de valider son premier résultat publiable. Le 20 mars 2026, une équipe du MIT et du CERN a soumis un article sur arXiv montrant qu’un agent IA accomplit une tâche comparable — de la formulation du problème au rapport final — en 3 heures et 10 minutes, pour un coût mensuel d’environ 200 dollars.
La phrase soumise au système tenait en douze mots : « Mesure la section efficace hadronique du boson Z à partir des données ALEPH. » Aucun modèle de code. Aucune indication de méthode. L’agent a consulté 575 articles scientifiques indexés, conçu une stratégie d’analyse, rédigé des milliers de lignes de code, traité 3,05 millions d’événements de collision, quantifié ses propres sources d’erreur, et produit un rapport aux figures de qualité publication — sans autre intervention humaine que l’autorisation finale de « lever l’aveugle » sur les données réelles.
Le papier est signé Eric A. Moreno, Samuel Bright-Thonney, Andrzej Novak, Dolores Garcia et Philip Harris. Il s’intitule AI Agents Can Already Autonomously Perform Experimental High Energy Physics. Le verbe « already » — déjà — est pesé.
Ce que signifie, concrètement, « faire de la physique des particules »
Un accélérateur comme le LHC produit environ 40 millions de collisions par seconde. La quasi-totalité est du bruit : des gerbes de particules ordinaires, prévisibles, sans intérêt pour la mesure qu’on cherche à effectuer. L’analyste doit d’abord construire un filtre — la sélection — pour isoler les événements qui ressemblent à un boson Z se désintégrant en quarks plutôt qu’en n’importe quoi d’autre. Ensuite, il doit estimer la contamination résiduelle : parmi les événements qui ont passé le filtre, combien ne sont pas ce qu’on cherche ? C’est l’estimation du bruit de fond. Puis vient la quantification des erreurs systématiques — chaque paramètre du détecteur mal calibré introduit un biais qu’il faut traquer, mesurer, propager. Enfin, l’ajustement statistique extrait le résultat sur données simulées, puis sur données réelles.
Une bonne analogie : c’est comme tenter de mesurer le taux exact d’une impureté particulière dans de l’eau de robinet à partir d’un million de bouteilles mélangées — sachant que certaines bouteilles contiennent d’autres impuretés qui imitent celle qu’on cherche, que les instruments de mesure ont des dérives qu’on doit corriger, et qu’on n’a pas le droit de goûter avant d’avoir terminé tous les calculs. Cette séquence s’appelle un pipeline d’analyse. Elle occupe, dans les grandes collaborations comme ATLAS ou CMS, de deux à quatre ans de thèse.
Ce que le système JFC (Just Furnish Context) reproduit, c’est l’intégralité de cette séquence — dans cet ordre, sans qu’on la lui prescrive. L’agent détermine lui-même sa stratégie. C’est précisément ce qui le distingue des travaux antérieurs dans ce domaine, où la structure de l’analyse était fournie par les chercheurs et seule son exécution déléguée à la machine.
Une bureaucratie d’agents comme chambre de délibération
L’architecture de JFC est articulée en sept phases séquentielles. La première produit un fichier STRATEGY.md — un document de planification que l’agent rédige pour lui-même avant d’écrire la moindre ligne de code. La cinquième génère un article scientifique complet en PDF via LaTeX. Entre les deux : exploration des données brutes, modélisation du signal et du bruit de fond, évaluation des incertitudes systématiques, inférence statistique sur données simulées, validation sur 10 % des données réelles, puis sur leur intégralité.
Chaque phase ne peut démarrer qu’après approbation de la précédente par un panel de six agents spécialisés : un réviseur de physique (à qui le cahier des charges est volontairement caché pour simuler un regard extérieur), un réviseur critique, un réviseur constructif, un validateur de figures qui vérifie programmatiquement 8 propriétés formelles, 11 contrôles de cohérence physique et 10 signaux d’alarme, un réviseur de rendu PDF, et un arbitre final qui synthétise. L’arbitre peut émettre trois verdicts : PASS, ITERATE (l’agent corrige et ressoumet), ou ESCALATE (problème requérant un jugement humain).
Cette structure ressemble à ce que font les grandes collaborations de physique avant de soumettre un résultat : trois à quatre niveaux de relecture interne, chaque relecteur mandaté pour chercher un type d’erreur différent. Le principe est le même — les biais individuels ne coïncident pas si les mandats divergent. La différence est que le panel humain délibère en semaines ; le panel d’agents, en minutes.
Neuf analyses, neuf défis — et leurs limites réelles
Les auteurs présentent neuf analyses complètes sur des données ouvertes de ALEPH, DELPHI (deux expériences du collisionneur LEP, actif de 1989 à 2000) et CMS (au LHC actuel). Les temps d’exécution varient de 2 heures 20 minutes pour la mesure des rapports Rb et Rc à 13 heures 13 minutes pour la densité du plan de Lund — une observable de chromodynamique quantitative exigeant un dépliage bidimensionnel. Parmi les résultats extraits : la constante de couplage fort αs(MZ) par ajustement de distributions de formes d’événements ; le nombre de générations de neutrinos légers Nν = 2,9840 ± 0,0082, cohérent avec exactement trois générations (résultat classique du LEP, retrouvé ici à un niveau de précision comparable) ; et la force de signal du boson de Higgs dans le canal µτh à 8 TeV.
Les auteurs sont explicites sur la portée de ces résultats : « Nous ne présentons pas ces analyses comme des résultats scientifiques légitimes. » C’est une démonstration de principe. Trois limites méritent d’être formulées avec précision plutôt qu’évacuées dans une section de bas de page.
La première est structurelle : toutes les analyses reproduisent des mesures déjà publiées, dont la stratégie est donc accessible dans le corpus que l’agent consulte. Aucune des neuf tâches n’était genuinement nouvelle. Les auteurs reconnaissent explicitement qu’ils laissent ouverte la question de savoir si le système peut aborder une analyse dont aucune stratégie éprouvée n’existe dans la littérature — c’est-à-dire ce qui constitue la majorité du travail scientifique de pointe.
La deuxième limite concerne le coût caché du contexte. Le nom JFC (Just Furnish Context) est trompeur dans sa légèreté. Constituer ce contexte a exigé de convertir 575 articles ALEPH et 1 868 articles DELPHI en Markdown structuré via un modèle de reconnaissance optique fonctionnant sur des GPU A100. Cette infrastructure documentaire n’existe pas encore pour la majorité des expériences actives — il faut la construire, et ce travail est lui-même considérable.
La troisième limite touche à la nature des erreurs produites. Certaines sont précisément le type de subtilités qu’un comité de révision expérimenté rattrape en priorité : contamination d’un modèle de bruit de fond par des événements Z → µµ dans l’analyse Higgs, matrice de covariance de rang insuffisant dans la mesure du corrélateur énergie-énergie. L’agent les signale lui-même dans ses notes de limitation — ce qui est, à sa manière, un indice de sa capacité d’autoévaluation. Mais signaler une erreur et la corriger sont deux choses différentes. Les auteurs appellent ce pattern « diagnostic correct, traitement différé ». Un physicien encore faut-il pour décider quoi en faire.
La rigueur comme vulnérabilité
Il est contre-intuitif que la physique des hautes énergies — discipline réputée pour sa complexité — soit précisément celle où un agent IA peut aujourd’hui automatiser une fraction significative du travail d’analyse. La raison est pourtant logique : c’est parce que cette discipline a, au fil des décennies, formalisé ses procédures avec une précision remarquable. Les collaborations publient des notes internes exhaustives sur leurs méthodes ; la littérature expérimentale décrit scrupuleusement les coupures appliquées, les sources d’incertitude, les tests statistiques. C’est exactement ce que JFC exploite — non pas la compréhension de la physique, mais la reproductibilité documentée de ses méthodes.
L’analogie qui vient à l’esprit est celle des recettes de cuisine. Un cordon-bleu codifie ses gestes dans un livre de recettes suffisamment précis pour qu’un robot les exécute. La précision du codage, qui était la force de la transmission du savoir, devient la condition de son automatisation. Les disciplines dont les pratiques sont les moins formalisées — celles qui reposent sur des conventions implicites jamais écrites — sont peut-être celles où l’IA aura le plus de difficulté, non pas parce qu’elles sont intellectuellement plus profondes, mais parce qu’elles ont moins bien documenté ce qu’elles savent faire.
Ce que la question révèle
Les auteurs formulent eux-mêmes la conclusion qu’il faut retenir, et elle n’est pas celle qu’on attendrait d’un article technique. Ils écrivent que leur travail soulève une question sur la formation des physiciens — non pas pour y répondre, mais pour l’ouvrir.
Si une fraction substantielle du travail d’un doctorant en physique des particules peut être déléguée à une machine en quelques heures pour 200 dollars par mois, la question n’est pas « faut-il former moins de physiciens ? » Elle est plus ancienne et plus inconfortable : quelle part de ce que nous appelons formation scientifique consiste à intérioriser des méthodes reproductibles, et quelle part consiste à développer le jugement nécessaire pour savoir quand aucune méthode existante ne suffit ?
C’est peut-être la seule frontière que JFC n’a pas encore approchée. Et tant qu’elle tiendra, les trois heures et dix minutes de la machine n’auront pas répondu à la question — elles l’auront seulement rendue impossible à esquiver.
Source
- Moreno, E. A., Bright-Thonney, S., Novak, A., Garcia, D., Harris, P. AI Agents Can Already Autonomously Perform Experimental High Energy Physics. arXiv:2603.20179v1 [hep-ex], 20 mars 2026. Disponible sur : https://arxiv.org/abs/2603.20179
Note sur les sources : les DOI fournis dans le brief éditorial renvoient à des publications de médecine générale sans rapport avec la physique des hautes énergies. Par honnêteté intellectuelle, nous ne les citons pas. L’unique source primaire de cet article est le pré-article arXiv ci-dessus, non encore soumis à révision par les pairs à la date de publication — niveau de certitude global des résultats : probable.
Sources
- A Pérez-Vázquez, R Vidal Álvarez, M Castro Pazos et al., “Prevalencia del uso preconcepcional del ácido fólico en el área norte de Pontevedra”, Atención Primaria, 2203. DOI: 10.1157/13053457
- I Fernández Fernández, “Respuesta de la autora”, Atención Primaria, 2203. DOI: 10.1157/13053452
- JI Alastrué Loscos, M Giner Valero, FJ Beltrán Armada, “Hepatitis C: diagnóstico y prevención desde la consulta de atención primaria”, Atención Primaria, 2203. DOI: 10.1157/13053449
- E Garcés Redolat, A Parra Hernández, P Munné Mas et al., “Intoxicación por paracetamol líquidoen menores de 6 años: cambios en la dosis tóxica”, Atención Primaria, 2203. DOI: 10.1157/13053460
- JM Manresa Presasa, J Rebull Fatsinib, M Miravalls Figuerolac et al., “La espirometría en el diagnóstico de la enfermedad pulmonar obstructiva crónica en atención primaria”, Atención Primaria, 2203. DOI: 10.1157/13053458
