L’oreille qui connaît l’arbre du vivant

Quelque part dans une forêt du Gabon, un petit boîtier gris est sanglé à un tronc depuis six semaines. Il ne bouge pas, ne clignote pas, n’attire l’attention de personne — ce qui est précisément le but. Jour et nuit, il enregistre. Le crépitement des grenouilles à la tombée du jour. Le duo flûté de deux calaos à l’aube. Le grésillement continu des orthoptères qui, passé minuit, prennent possession de la bande-son. Quand un technicien viendra récupérer la carte mémoire, il repartira avec huit cents heures de son. Huit cents heures que personne n’écoutera jamais en entier, parce qu’il faudrait pour cela un ornithologue patient, disponible trente-trois jours d’affilée, sans dormir. Multipliez par les milliers d’enregistreurs aujourd’hui disséminés dans les forêts tropicales du globe, et vous obtenez le paradoxe qui ronge la bioacoustique contemporaine : nous savons capter la voix du vivant, mais nous sommes incapables de la lire.

C’est pour briser ce goulet d’étranglement qu’une équipe de recherche a conçu AnimalCLAP, un système d’intelligence artificielle dont la particularité tient en une phrase : il peut identifier une espèce animale à partir de son chant sans l’avoir jamais entendu auparavant. L’étude, diffusée via la plateforme académique Cairn.info, décrit une architecture qui ne se contente pas de mémoriser des sons — elle apprend à raisonner sur les liens de parenté entre les êtres qui les produisent.

Pour comprendre ce que cela signifie, oubliez un instant les algorithmes. Pensez plutôt à un sommelier. Un bon sommelier, confronté à un cépage qu’il n’a jamais goûté, n’est pas totalement démuni. Il connaît la famille à laquelle ce cépage appartient, le terroir d’où il vient, les cousins qu’il a déjà bus. Il raisonne par voisinage. Eh bien, AnimalCLAP fait la même chose avec les chants d’animaux — sauf que son « terroir », c’est la taxonomie, cet arbre de classification du vivant qui relie chaque espèce à ses cousines, ses tantes, ses ancêtres communs.

Le mécanisme repose sur une architecture vraisemblablement issue du traitement du langage et du son, baptisée CLAP — « Contrastive Language-Audio Pretraining ». Le principe : apprendre à placer des descriptions textuelles et des signaux acoustiques dans un même espace mathématique, une sorte de carte où la proximité traduit la ressemblance. Plus un mot et un son sont proches sur cette carte, plus le système juge qu’ils se correspondent. AnimalCLAP reprend ce socle et y greffe un squelette que l’architecture originale ignorait : la structure même de la classification biologique. Ordre, famille, genre, espèce — chaque niveau de la hiérarchie taxinomique est encodé comme une connaissance structurelle sur laquelle viennent se déposer les apprentissages acoustiques.

Le résultat est concret. Si le modèle connaît le chant de la grive musicienne et qu’on lui soumet celui d’une grive draine — jamais entendu —, il sait déjà que ces deux oiseaux partagent le genre Turdus. Cette parenté lui fournit une boussole : le chant inconnu partage probablement certains traits acoustiques avec ceux qu’il maîtrise dans la même branche de l’arbre. Les spécialistes de l’apprentissage automatique appellent cela la classification « à zéro exemple » — reconnaître ce qu’on n’a jamais vu, ou en l’occurrence, jamais entendu.

Que ce soit autre chose qu’un exercice de style, les chiffres de la biodiversité le rappellent crûment. Sur les quelque dix mille espèces d’oiseaux répertoriées dans le monde (entre 10 000 et 11 000 selon les classifications en usage), seule une fraction dispose d’enregistrements annotés en quantité suffisante pour nourrir un algorithme classique. Pour les amphibiens, la situation est pire. Pour les insectes, n’en parlons pas. L’immense majorité du vivant sonore reste dans l’angle mort des bases de données, et le travail d’annotation — écouter, identifier, étiqueter — conserve une lenteur artisanale que la profusion des enregistreurs automatiques rend chaque jour plus insoutenable. AnimalCLAP desserre cet étau. Si le modèle reconnaît une espèce jamais apprise, il n’est plus nécessaire de constituer un catalogue exhaustif pour chaque faune locale. La surveillance de la biodiversité pourrait passer de l’artisanat à l’échelle industrielle — et dans un monde où les écosystèmes se dégradent plus vite qu’on ne parvient à les inventorier, le gain serait considérable.

Mais il serait imprudent d’en rester là. La taxonomie, aussi élégante soit-elle, n’est pas un oracle acoustique. Deux espèces du même genre peuvent chanter des airs radicalement différents, sculptés par des pressions de sélection locales, des phénomènes d’apprentissage vocal ou de divergence géographique. Les ornithologues le savent d’expérience : certains cousins proches produisent des vocalisations méconnaissables l’un pour l’autre, tandis que des espèces éloignées convergent vers des chants étonnamment similaires. Encoder la parenté dans un modèle revient à lui donner un excellent indice, pas une garantie.

D’autres questions restent en suspens. L’article mentionne la création d’un nouveau jeu de données de vocalisations animales, mais les détails sur sa composition demeurent lacunaires. Combien d’espèces y figurent ? De quelles régions du globe proviennent les enregistrements ? En apprentissage automatique, la robustesse d’un système dépend autant de l’architecture que des données sur lesquelles il a été nourri — un modèle entraîné majoritairement sur des oiseaux européens pourrait vaciller face à la cacophonie d’une forêt néotropicale.

Et puis il y a le terrain, ce juge impitoyable. Les forêts tropicales, précisément celles qu’AnimalCLAP vise en priorité, sont des cauchemars acoustiques. Les sons ricochent contre les troncs, se noient dans le bruit du vent, le crépitement de la pluie, le bourdonnement continu des insectes. Un chant capté à trente mètres par un enregistreur sous la canopée ne ressemble guère au même chant enregistré en studio. Les modèles de reconnaissance acoustique entraînés sur des sons propres trébuchent souvent dès qu’on les plonge dans le tumulte du réel. AnimalCLAP a-t-il été confronté à ces conditions ? Les sources disponibles ne permettent pas de l’affirmer.

Ces réserves n’entament pas l’élégance de l’intuition fondatrice. Marier l’apprentissage contrastif avec la structure même de l’arbre du vivant rejoint un mouvement plus large en intelligence artificielle : au lieu de tout apprendre de zéro, injecter dans les modèles des connaissances que les humains ont mis des siècles à bâtir. La taxonomie de Linné, ce vieil édifice classificatoire né au dix-huitième siècle, trouve ici un usage que son inventeur n’aurait assurément pas imaginé. Des projets comme BirdNET, développé au Cornell Lab of Ornithology (cornell.edu/birdnet), permettent déjà d’identifier des centaines d’espèces d’oiseaux à partir d’enregistrements de terrain — mais ils restent prisonniers de leur base d’entraînement. Ce qu’AnimalCLAP ajoute au paysage, c’est la possibilité de franchir cette frontière, de reconnaître l’inconnu en s’appuyant sur le connu. Le saut conceptuel est net, même si sa validation à grande échelle reste à venir.

Il faut imaginer ce que cela donnerait si la promesse se réalisait pleinement. Des milliers d’enregistreurs posés à travers les forêts du monde, reliés à une oreille artificielle qui connaît l’arbre de la vie. Chaque nuit, des sons déchiffrés à la volée, des espèces identifiées, des absences repérées — car en écologie, le silence d’une espèce qui chantait hier est souvent le premier signe d’un effondrement. Ces sentinelles acoustiques pourraient transformer chaque hectare de forêt en observatoire permanent du vivant. Des espèces pourraient y être détectées avant même d’avoir été formellement décrites par un taxonomiste humain. Reste à savoir si l’algorithme saura distinguer, dans le vacarme de trois heures du matin sous la canopée de Bornéo, le cri nuptial d’une rainette inconnue du grincement d’une branche morte. La forêt, elle, n’attend pas qu’on tranche la question pour continuer à parler dans le vide.

Sources