Des chercheurs du Northwestern Institute auraient réussi à construire un modèle prédisant la non-reproductibilité de publications scientifiques. Révolution ou solutionnisme ?
Les apports du développement de l’apprentissage automatique (machine learning) paraissent sans limites. Après les premiers exploits en traitement de l’image et l’extrême engouement autour de la génération automatique de contenu, voici que la recherche fondamentale est maintenant présentée comme le tout nouveau terrain d’application prometteur. Se plaçant sur un tout autre terrain que Chris Anderson et sa fin de la théorie[1], des chercheurs du Northwestern Institute on Complex Systems affirment dans deux articles parus dans la revue Proceedings of the National Academy of Sciences (PNAS) en 2020[2] et 2023[3] que ces algorithmes apprenants pourraient être utilisés pour prédire quelles études scientifiques ne seraient pas susceptibles d’être reproductibles.
Rappelons, s’il était nécessaire, que notre entière démarche scientifique s’est construite sur la réplicabilité. Rappelons également que la détection de résultats non reproductibles est un processus coûteux et laborieux, impliquant le plus souvent de reproduire une étude dans son ensemble pour démontrer la viabilité d’une recherche. Avec l’aide de l’apprentissage automatique, une nouvelle révolution serait maintenant à nos portes, afin de permettre à d’écarter plus rapidement les publications présentant des résultats fantaisistes ou relevant du simple hasard.
Cinq autres chercheurs, dont Sayash Kapoor et Arvind Narayanan, travaillant à l’Université de Princeton et animant la newsletter AI Snake Oil[4], semblent toutefois être parvenus à démontrer que des erreurs substantielles affectent des centaines d’articles scientifiques ayant adopté des méthodes de vérification issues de l’apprentissage automatique dans plus d’une douzaine de domaines[5]. Selon eux, les modèles étudiés présenteraient des problèmes internes majeurs et expliquent pourquoi l’utilisation de « l’intelligence artificielle » pour estimer la non reproductibilité ne peut pas de se substituer aux pratiques habituelles de vérification des institutions scientifiques. Parmi les critiques les plus substantielles soulevées, ils relèvent que le modèle des chercheurs du Northwestern Institute a été formé à l’aide de corrélations entre des caractéristiques superficielles des articles, telles que le texte, dégageant des prédicteurs tout aussi superficiels. Les cinq chercheurs estiment même que des futurs auteurs de publications scientifiques pourraient s’en saisir pour éviter d’introduire dans leurs articles des « déclencheurs » d’évaluation de non reproductibilité[6]. Paraître « reproductible » arriverait ainsi à avoir autant d’importance que le mérite même de la recherche.
Que retenir de cette controverse ? Qu’encore une fois, la science est bien maltraitée pour des enjeux essentiellement mercantiles, la recherche ayant globalement cédé depuis bien longtemps à la nécessité de démontrer rapidement une viabilité commerciale. Kapoor et Narayanan anticipent de manière tout à fait juste la dérive résultant de l’emploi de tels modèles approximatifs, en rappelant la « loi de Goodhart » : « Lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure ». Le hacking des modèles censés filtrer les recherches non-reproductibles appauvrira non seulement la qualité globale de la production scientifique mais conduira aussi à divertir des financements d’autres recherches, qui n’auraient pas pris la précaution de rédiger leurs publications dans un sens favorable pour ces algorithmes[7]. En ce sens, La définition de métriques pour évaluer la qualité d’une production scientifique avait aussi été dénoncée par Giuseppe Longo dans son ouvrage « Le cauchemar de Prométhée ». Il était là question de « bibliométrie », évaluant l’impact d’une publication au regard du nombre de fois où il était cité[8].
L’apprentissage automatique est encore une fois ici victime de sa versatilité et de solutionnisme, au risque de le décrédibiliser sur le long terme pour apporter des solutions utiles et fondées à certains problèmes. Une fois échaudés par des promesses non tenues ou des polémiques, les investisseurs auront en effet bien du mal à continuer de soutenir les développements et l’on risquera de glisser vers un nouvel hiver de « l’IA », qui pourrait être bien rude[9]. En 1971, dans sa leçon inaugurale au Collège de France, le physicien Pierre-Gilles de Gennes mettait déjà en garde ses collègues contre les effets de mode et les processus d’emballement. Il citait l’exemple d’une équipe de physico-chimistes annonçant à la fin des années 1960 avoir découvert une « super-eau », plus compacte et plus stable que l’eau dans l’état dans laquelle nous la connaissons. Soutenu par les spéculations de quelques théoriciens, toute une chaîne d’applications biologiques, médicales et militaires étaient vite suggérées pour capter des financements. Il s’avèrera plus tard que les observations initiales avaient été mal interprétées et conduira ainsi de Gennes à conclure qu’un « mythe peut germer, croître et persister durablement au sein de la communauté scientifique[10] ».
Il n’y a donc rien d’anormal d’assister à un « grand emballement » autour de l’apprentissage automatique durant cette dernière décennie[11], conduisant à diverses spéculations, plus ou moins réalistes, notamment à des fins commerciales. Il s’agit là de cycles très typiques de l’innovation et des découvertes, les éléments signifiants se sédimentant naturellement à la suite d’une agitation généralisée[12]. Mais, pour typiques que soient ces cycles, la responsabilité de l’ensemble de la communauté scientifique est de réduire le temps de la formation de cette sédimentation, en donnant l’occasion à chacun de reprendre raison, même si l’on doit se situer à contresens des vents dominants de la spéculation exaltée.
Il paraît donc urgent que des travaux comme ceux de Kapoor et Narayanan inspirent une plus large communauté, dans un courant qui pourrait être qualifié de « techno-réaliste » et contribuent de forger une narration différente autour de cette technologie, en reconnaissant ses mérites objectifs, mais aussi, de manière tout aussi lucide, ses limites.
[1] C. Anderson, The End of Theory: The Data Deluge Makes the Scientific Method Obsolete, Wired, 23 juin 2008, accessible sur : https://www.wired.com/2008/06/pb-theory/, consulté le 14 août 2023
[2] Y. Yang, W. Youyou, B. Uzzi, Estimating the deep replicability of scientific findings using human and artificial intelligence, PNAS, 4 mai 2020, accessible sur : https://www.pnas.org/doi/10.1073/pnas.1909046117, consulté le 14 août 2023
[3] W. Youyou, Y. Yang, B. Uzzi, A discipline-wide investigation of the replicability of Psychology papers over the past two decades, 2023, accessible sur : https://www.pnas.org/doi/epdf/10.1073/pnas.2208863120, consulté le 14 août 2023
[4] Accessible sur : https://www.aisnakeoil.com, consulté le 14 août 2023
[5] M.J. Crockett et al., The limitations of machine learning models for predicting scientific replicability, PNAS, 2023, accessible sur : https://www.pnas.org/doi/epdf/10.1073/pnas.2307596120, consulté le 14 août 2023 et S. Kapoor, A. Narayanan, Leakage and the Reproducibility Crisis in ML-based Science, arXiv, 2022, accessible sur : https://reproducible.cs.princeton.edu, consulté le 14 août 2023
[6] S. Kapoor, A. Narayanan, ML is useful for many things, but not for predicting scientific replicability, AI Snake oil, 11 août 2023, accessible sur : https://www.aisnakeoil.com/p/machine-learning-is-useful-for-many, consulté le 14 août 2023
[7] Pour donner une échelle, une étude citée par Kapoor et Narayanan, a estimé le coût de la recherche non reproductible à 28 milliards de dollars chaque année, rien que dans le domaine de la recherche préclinique : L.P. Freedman et al., The Economics of Reproducibility in Preclinical Research, PLOS Biology, 9 juin 2015, accessible sur : https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002165, consulté le 14 août 2023
[8] G. Longo, Le cauchemar de Promothée – Les sciences et leurs limites, PUF, 2023, p.53 et s.
[9] Y. Meneceur, L’automne de l’intelligence artificielle, Les Temps électriques, 15 octobre 2022, accessible sur : https://lestempselectriques.net/index.php/2022/10/15/lautomne-de-lintelligence-artificielle/, consulté le 14 août 2023
[10] Cité par E. Klein, Le goût du vrai, Tracts n°17, Gallimard, Juillet 2020, p.49
[11] Y. Meneceur, L’intelligence artificielle en procès – Plaidoyer pour une réglementation internationale et européenne, Bruylant, 2020, p.63 et s.
[12] L’institut Gartner a théorisé ces cycles sous le nom de « Hype Cycle », méthodologie décrite sur : https://www.gartner.fr/fr/methodologies/hype-cycle, consulté le 14 août 2023
Animateur des Temps Electriques et auteur du l’ouvrage « L’intelligence artificielle en procès »
Les opinions exprimées n’engagent que son auteur et ne reflètent aucune position officielle du Conseil de l’Europe