L’intelligence artificielle (IA) est aujourd’hui omniprésente, s’intégrant dans divers domaines comme la médecine, la finance et la recherche scientifique. Les avancées en matière de grands modèles de langage (LLM) ont permis de développer des outils de plus en plus performants, capables d’analyser des données complexes et de répondre à des questions sophistiquées. Cependant, une étude récente remet en cause l’idée que ces systèmes sont infaillibles. Les chercheurs ont en effet observé que certaines IA, notamment les modèles plus anciens, montrent des signes de déclin de performance avec le temps. Ce phénomène, comparé par certains à une forme de « vieillissement » numérique, soulève des questions sur la fiabilité des modèles d’IA et leur utilisation dans des domaines critiques comme le diagnostic médical.
Un test cognitif pour évaluer l’intelligence artificielle
Pour mesurer les capacités des modèles d’IA, les chercheurs ont utilisé le Montreal Cognitive Assessment (MoCA), un test conçu pour évaluer les fonctions cognitives humaines. Il est habituellement utilisé par les neurologues pour détecter des troubles comme la maladie d’Alzheimer ou la démence. Il comprend plusieurs exercices portant sur l’attention, la mémoire, la reconnaissance visuelle, les compétences linguistiques et les capacités de raisonnement.
Les IA testées devaient par exemple dessiner une horloge affichant une heure précise, exécuter des calculs mentaux impliquant des soustractions répétées ou encore se souvenir d’une liste de mots après un certain délai. Ces exercices permettent de mesurer différents aspects du raisonnement et de la mémoire. Or, il s’agit de capacités essentielles pour les applications de l’IA en milieu médical et scientifique.
Les résultats obtenus ont révélé des disparités significatives entre les modèles récents et leurs prédécesseurs. ChatGPT-4, l’un des derniers modèles développés par OpenAI, a obtenu un score de 26 sur 30, ce qui correspond à une performance normale chez un humain. En revanche, Gemini 1.0 d’Alphabet (Google), un modèle plus ancien, a obtenu un score de seulement 16 sur 30, suggérant une perte de capacité dans certains domaines clés.
Des faiblesses inattendues chez les anciens modèles
L’un des constats les plus frappants de cette étude est que les IA plus anciennes semblent particulièrement vulnérables dans certains types de tâches, notamment celles impliquant des compétences visuelles et spatiales. Par exemple, plusieurs modèles ont échoué à des exercices simples de reconnaissance d’objets ou de repérage dans l’espace. Ces failles pourraient avoir un impact direct sur leur utilisation dans des domaines comme l’imagerie médicale.
D’autres déficiences ont été relevées dans le rappel différé, c’est-à-dire la capacité à se souvenir d’informations après un certain temps. Ce problème est particulièrement préoccupant pour les applications où l’IA doit analyser des dossiers médicaux ou suivre l’évolution d’un patient sur plusieurs consultations. Une IA qui « oublie » des données essentielles pourrait compromettre la qualité des soins et la prise de décision médicale.
Les chercheurs ont également constaté que, contrairement aux humains qui peuvent améliorer leurs compétences avec l’expérience, les modèles plus anciens d’IA semblent se dégrader au fil du temps, en particulier lorsqu’ils ne sont pas mis à jour régulièrement. Ce phénomène pourrait être dû à des limitations dans leur architecture ou à un manque d’adaptation aux nouvelles données.

Un obstacle à l’intégration de l’IA en médecine ?
Ces découvertes soulèvent des inquiétudes quant à l’utilisation de l’IA dans des domaines critiques comme la santé. Si les modèles les plus récents affichent des performances solides, la détérioration observée chez les versions plus anciennes remet en question l’idée selon laquelle l’IA pourrait à terme remplacer certains professionnels de santé.
Dans un contexte où de plus en plus de patients et de médecins s’appuient sur l’intelligence artificielle pour l’analyse d’images médicales et l’aide au diagnostic, il est crucial de s’assurer que ces systèmes restent fiables et précis sur le long terme. L’étude met ainsi en évidence un « domaine de faiblesse important », selon les auteurs, qui doit être pris en compte avant d’intégrer ces technologies de manière plus systématique en milieu hospitalier.
Certains experts estiment que la solution réside dans une mise à jour continue des modèles afin de leur permettre de s’adapter à de nouvelles données et d’éviter une perte de performance avec le temps. D’autres soulignent l’importance d’une supervision humaine accrue pour pallier ces failles et garantir que l’IA ne prenne pas de décisions erronées.