Cinq millions contre des milliards : le pari d’efficacité d’un système OCR qui bouscule les certitudes

Imaginez que vous demandiez à un marathonien de taille mondiale d’ouvrir une porte à clé. Il peut le faire — mais il mobilisera pour cela une énergie colossale, dépensant dans ce geste anodin des ressources qui auraient suffi à traverser l’Atlantique à la nage. C’est, à peu de choses près, le paradoxe que pointe une équipe de quatorze ingénieurs et chercheurs de Baidu PaddlePaddle dans un article prépublié en mars 2026 sur le serveur arXiv.

Le sujet : la reconnaissance optique de caractères — cette opération qui consiste à extraire du texte depuis une image, un scan ou un document photographié, et que l’on désigne par l’acronyme OCR, pour Optical Character Recognition. Une tâche que nos ordinateurs effectuent depuis des décennies, mais qui connaît depuis quelques années une mutation profonde. Là où des systèmes spécialisés pesaient quelques millions de paramètres (les « paramètres » sont les valeurs numériques qu’un réseau de neurones ajuste lors de son entraînement, à la manière des poids d’une balance cherchant son équilibre), les grands modèles de vision-langage — qui combinent traitement d’image et traitement du texte dans un système unifié — mobilisent aujourd’hui plusieurs milliards. Et l’on a longtemps supposé que plus un modèle était massif, plus il serait performant sur cette tâche.

PP-OCRv5, c’est le nom du système que présente l’équipe, remet en question cette équation. Cinq millions de paramètres. Autant dire un nain dans un monde de géants.


Pour comprendre pourquoi c’est surprenant — et pourquoi il faut néanmoins rester prudent — il faut saisir ce qui se joue en coulisses depuis deux ou trois ans dans le domaine de la reconnaissance de texte.

L’arrivée des grands modèles de vision-langage, comme Qwen-VL de l’écosystème Alibaba ou d’autres systèmes de même envergure, a ouvert une voie séduisante. Plutôt que de construire une chaîne de traitement spécialisée — détecter d’abord les zones de texte, puis les découper, puis les transcrire — on pouvait désormais confier l’ensemble du problème à un seul réseau massif, entraîné sur des milliards d’exemples texte-image. Une solution globale, élégante, qui promettait de balayer les limitations des approches précédentes.

Sauf que ces modèles présentent trois faiblesses identifiées par les auteurs du paper. La première est structurelle : leur coût computationnel élevé les rend inaccessibles hors infrastructure cloud. La deuxième est architecturale : face à des mises en page complexes — tableaux imbriqués, colonnes multiples, texte en biais — ces systèmes peinent à localiser précisément les zones de texte, là où une chaîne de traitement spécialisée peut dédier un module entier à cette seule tâche. La troisième est peut-être la plus insidieuse : les « hallucinations textuelles ». Quand un grand modèle de vision-langage traite une image de facture ancienne, d’un manuscrit médiéval en cursive, ou d’un formulaire en chinois classique, il ne se contente pas de transcrire ce qu’il observe — il génère du texte cohérent avec ce qu’il anticipe. Il produit des séquences vraisemblables plutôt que des séquences exactes. Ce glissement, imperceptible à l’œil non averti, peut transformer une transcription en fiction partielle. Pour un archiviste, un juriste ou un médecin, ce n’est pas une anecdote.

L’équipe de Baidu PaddlePaddle fait le pari inverse : plutôt que l’universalité massive, la spécialisation chirurgicale. PP-OCRv5 est une architecture en pipeline — une chaîne d’étapes successives, chacune dédiée à une sous-tâche précise — que ses concepteurs ont raffinée pour traiter cinq scénarios d’écriture distincts : l’imprimé en caractères latins, l’imprimé en caractères chinois, le manuscrit latin, le manuscrit chinois, et les caractères de type « pinyin » (le système de romanisation du mandarin). Les auteurs rapportent, selon leurs propres évaluations, que cette architecture réduit les erreurs sur les manuscrits et les documents complexes par rapport aux versions précédentes de leur outil.


Mais c’est ici que le lecteur attentif doit marquer une pause.

Les résultats présentés dans l’article sont ceux des auteurs eux-mêmes, évalués sur des jeux de données qu’ils ont en partie constitués ou sélectionnés. La comparaison avec Qwen-VL — l’un des modèles de vision-langage mentionnés comme point de référence — n’a, à ce stade, pas fait l’objet d’une validation indépendante. Quand les auteurs affirment que leur système « rivalise » avec des modèles de plusieurs milliards de paramètres, c’est une prétention honnêtement formulée dans le cadre d’un preprint, mais une prétention qui attend confirmation. La révision par les pairs, ce processus d’évaluation critique qui est le tamis normal de la science, n’a pas encore eu lieu.

Il y a plus. Les données d’entraînement utilisées pour calibrer PP-OCRv5 ne sont pas publiées dans leur intégralité. Or, un système OCR est aussi bon — et aussi biaisé — que les documents sur lesquels il a été entraîné. Si l’ensemble d’entraînement privilégie certains types d’écriture, certaines langues, certains siècles, le système en héritera les angles morts. Sans audit possible de ces données, la promesse de polyvalence reste en partie opaque.

Enfin, PP-OCRv5 est développé au sein de l’écosystème PaddlePaddle, la plateforme d’apprentissage profond (deep learning) de Baidu. Le modèle est à poids ouverts — ses paramètres sont accessibles — mais il évolue sous la juridiction d’une entreprise chinoise, dans un cadre légal et institutionnel que ne contrôlent ni les chercheurs européens, ni les utilisateurs indépendants. Ce n’est pas un détail : pour qui construit des outils critiques d’archivage, de traduction ou de justice sur cette base, la question de l’auditabilité à long terme est réelle.


Ces réserves posées, l’argument central de l’article mérite d’être pris au sérieux. La tendance qui consiste à résoudre tous les problèmes en agrandissant indéfiniment les modèles a un coût : énergétique, d’abord, puisque entraîner et interroger un modèle de plusieurs milliards de paramètres consomme une électricité considérable ; d’accessibilité, ensuite, car ces colosses nécessitent une infrastructure cloud que n’ont pas les hôpitaux de campagne, les bibliothèques rurales ou les téléphones d’entrée de gamme.

Un système OCR de cinq millions de paramètres qui se comporterait de manière satisfaisante sur ces usages pourrait fonctionner localement, sans connexion, sans serveur distant, sans que chaque transcription de document ne soit envoyée vers un centre de données à l’autre bout du monde. C’est la promesse d’une souveraineté technique modeste mais tangible.

Le concept que l’article introduit sous le nom d’OCR 2.0 — une reconnaissance de texte capable de gérer non seulement les caractères imprimés standards, mais aussi les manuscrits, les langues rares, les formules scientifiques, les tableaux imbriqués — dessine une vision cohérente. Que PP-OCRv5 tienne véritablement cette promesse, on le saura quand des équipes extérieures l’auront soumis à leurs propres tests, sur leurs propres corpus, avec leurs propres critères.

D’ici là, l’article de Cheng Cui, Yi Liu et leurs douze coauteurs pose une question qui dépasse leur propre système : et si la course aux paramètres n’était pas la seule voie ? Et si, pour certaines tâches bien définies, la précision d’un scalpel valait mieux que la puissance d’un marteau-piqueur ?

La réponse n’est pas encore dans les chiffres. Elle est dans les mains de ceux qui vont, dans les prochains mois, vérifier.


Source

Cheng Cui, Yi Liu et al. (14 auteurs), PP-OCRv5: A Versatile Practical OCR System, PaddlePaddle/Baidu, mars 2026. Preprint disponible sur arXiv : arXiv:2603.24373. (Preprint non encore évalué par les pairs à la date de publication de cet article.)


⚠️ Note technique interne : une anomalie du système de récupération documentaire a injecté dans le brief de rédaction des sources sans rapport avec le sujet (articles de gestion publique française). L’auteur a eu la bonne réflexe de ne pas les utiliser. L’équipe technique est informée pour correction.


À lire aussi sur Émergence :

  • Rétention sélective des paramètres : un mécanisme d abstraction contre l oubli catastrophique