Covid-19 et intelligence artificielle : des usages rarement matures ne pouvant compenser la fragilité des systèmes de santé

Bibliographie de l’ouvrage “L’intelligence artificielle en procès”

Les multiples usages des technologies numériques en période de crise, dont l’informatique et cette fameuse « IA », illustrent leurs très larges potentialités. Mais très peu « d’IA » s’avèrent en réalité totalement matures, avec un impact opérationnel[1]. De plus, elles n’ont pu compenser ce qui a fait fondamentalement défaut : une mobilisation et une coordination mondiale soutenues pour affronter une crise globale dès le début de la pandémie. 

Lors des précédentes crises mondiales, comme la crise financière de 2008 et l’épidémie du virus Ebola de 2014, les États-Unis ont assumé une telle dynamique, mais l’administration américaine actuelle semble avoir renoncé à de telles ambitions, en abandonnant au passage ses alliés ou en tentant de s’assurer l’exclusivité des travaux d’une société pharmaceutique allemande. Ce sont la Chine, la Fédération de Russie et Cuba qui ont montré qu’ils supportaient matériellement l’Italie au pic de la crise. Si ces démonstrations relèvent de l’opération de communication et de lutte géopolitique, il y a toutefois là un changement de paradigme géopolitique majeur en cours, d’autant plus que la crise financière qui suivra cette crise sanitaire va encore fragiliser les solidarités entre les peuples[2]. Le Conseil de l’Europe pourrait être l’un des moteurs pour réaffirmer la nécessaire solidarité à développer entre les peuples européens pour mieux faire face à des défis globaux. Rappelons d’ailleurs que l’article 11 de la Charte sociale européenne (ratifiée par 34 des 47 États membres du Conseil de l’Europe) édicte déjà un droit à la protection de la santé qui engage les signataires « à prendre, soit directement, soit en coopération avec les organisations publiques et privées, des mesures appropriées tendant notamment : 1°) à éliminer, dans la mesure du possible, les causes d’une santé déficiente ; 2°)  à prévoir des services de consultation et d’éducation pour ce qui concerne l’amélioration de la santé et le développement du sens de la responsabilité individuelle en matière de santé ; 3°) à prévenir, dans la mesure du possible, les maladies épidémiques, endémiques et autres, ainsi que les accidents. »

Cette pandémie a aussi révélé la très grande fragilité des systèmes de santé, après des décennies de coupes budgétaires et de croyances que diverses applications technologiques, telles que « l’IA », allaient permettre de faire mieux avec moins. « C’est la foi d’un monde gérable comme une entreprise qui se cogne aujourd’hui brutalement à la réalité de risques incalculables » affirme Alain Supiot dans un entretien avec le magazine Alternatives Économiques[3]. « L’IA » a tenu une place de choix comme nouvel oracle en capacité de réduire toute forme de risque en nombre et ses usages ont contribué à substituer au cœur des missions des calculs d’utilité. Les systèmes de soins ont ainsi été saisis par une déconstruction de systèmes de solidarité garantis par l’État au profit d’une privatisation, d’une plus grande flexibilité et de la recherche d’efficience. Le management par le coût en est arrivé à primer sur la mission d’intérêt général et l’universalité des soins. Les projections, souvent surévaluées par l’industrie numérique, d’une « IA » capable de décharger les médecins de certaines tâches complexes pour les recentrer sur le cœur de leur mission ont d’abord servi la recherche de rentabilité et ont contribué à affaiblir la résilience des systèmes de santé.

Enfin, et c’est peut-être le plus inquiétant, les multiples usages de ces technologies numériques pour contrôler les populations dans cette période de crise ont également permis de faire gagner du terrain à un idéal sécuritaire. L’efficacité des mesures, présentées comme provisoires, risque de se banaliser et de constituer un nouveau quotidien afin de prévenir de nouvelles calamités[4]. Pensons par exemple à la proposition de « dépistage pair-à-pair » émise par Joshua Bengio et Vargha Moayed consistant à une évaluation de la probabilité d’infection d’un individu par une application mobile. Le recours à cet outil reposerait notamment sur « une pression sociale pour télécharger l’application afin de pouvoir se déplacer librement à l’extérieur dans des endroits où se trouvent d’autres personnes ». Les auteurs ajoutent que « les gouvernements pourraient rendre obligatoire l’utilisation de l’application pour accéder à certains lieux accueillant un grand nombre de personnes, tels que les épiceries, les écoles et les universités[5] ». Outre la question de la fiabilité d’une telle évaluation et des discriminations inévitablement produites, se pose la question plus fondamentale du « solutionnisme » de la proposition. Il peut sembler surprenant de proposer une solution technologique, à laquelle tout le monde n’aura d’ailleurs pas accès, pour régler ce qui est avant tout un problème de moyens alloués à la recherche médicale et aux établissements de soins. Ne vaudrait-il mieux pas en effet diriger l’argent que coûterait une telle solution pour permettre aux systèmes de santé de répondre à leur mission première : permettre à chacun d’accéder à des soins de qualité et, dans le cas d’épidémies, à des tests s’ils existent.

Les différentes applications de « l’IA » ont pu susciter des espoirs pour lutter contre le coronavirus, mais leur portée et leur intérêt diffèrent très fortement en fonction des cas d’utilisation. Particulièrement en période de crise, les différents usages devraient être objectivés sur la base de méthodologies robustes et éprouvées. Les informations mises à disposition des chercheurs, des soignants et du public devraient être fiables et transparentes. Dans un tel contexte, les standards en matière de protection des données, comme la Convention 108+ du Conseil de l’Europe, devraient pouvoir continuer à s’appliquer pleinement en toutes circonstances : qu’il s’agisse de l’utilisation de données biométriques, de la géolocalisation, de la reconnaissance faciale et de l’exploitation de données de santé, le déploiement d’applications en urgence doit pouvoir s’effectuer en concertation avec les autorités de protection des données et dans le respect de la dignité et de la vie privée des utilisateurs ainsi que de principes tels que la loyauté et la licéité. Les inévitables biais dans les divers types d’opérations de surveillance basés sur des données, susceptibles de créer d’importantes discriminations, sont ainsi à considérer[6]. En réalité, c’est l’entier logiciel du projet de société qui est susceptible d’être reformaté après cette crise sanitaire et nous devons prendre garde à ce que ces technologies soient des alliés de politiques globales de coopération et de partage des savoirs plutôt que des instruments surévalués au service de projets mercantiles. Et surtout, replacer enfin la mission de services publics, comme celui de la santé, au cœur de politiques centrées sur le progrès humain et non sur la seule performance économique.


[1] J. Bullock, A. Luccioni, K. H. Pham, C. Sin Nga Lam, M. Luengo-Oroz, Mapping the landscape of artificial intelligence applications against COVID-19, UN Global Pulse, 25 mars 2020

[2] R. Herreros, Coronavirus : L’Union européenne sera-t-elle la prochaine victime ?, Huffington Post, 26 mars 2020

[3] Alain Supiot : ‘Seul le choc avec le réel peut réveiller d’un sommeil dogmatique’, Alternatives économiques, 21 mars 2020

[4] Y.N.Harari, Yuval Noah Harari: the world after coronavirus, The Financial Times, 20 mars 2020

[5] V. Moayed, Y. Bengio, Dépistage pair à pair de la COVID-19 basé sur l’IA, Blog de Yoshua Bengio, 25 mars 2020

[6] A.F. Cahn, John Veiszlemlein, COVID-19 tracking data and surveillance risks are more dangerous than their rewards, NBC News, 19 mars 2020

L’IA convoquée pour lutter contre le coronavirus Covid-19

Crédits: NIH/Flickr

Article mis à jour le 25 mars 2020

Il n’aura pas fallu attendre longtemps pour que l’intelligence artificielle (IA) soit invitée à venir porter appui à la lutte contre la pandémie virale touchant le monde entier depuis le début de l’année 2020. La presse et les bloggers se font écho des grands espoirs reposant sur la science des données et l’IA pour affronter le coronavirus (D. Yakobovitch, How to fight the Coronavirus with AI and Data Science, Medium, 15 février 2020) et « remplir les vides » encore laissés par science (G. Ratnam, Can AI Fill in the Blanks About Coronavirus? Experts Think So, Government Technology, 17 mars 2020).

Il est toutefois surprenant que la Chine, premier épicentre de cette maladie et réputée pour son avancée technologique en la matière, ne paraisse pas avoir pu en tirer un avantage déterminant. Ses usages le plus efficaces semblent avoir plus concerné le contrôle des populations et les prévisions d’évolution des foyers de la maladie que la recherche pour l’élaboration d’un vaccin ou d’un traitement. Il y a bien sûr eu des applications de l’IA pour accélérer le séquençage du génome, effectuer des diagnostics plus rapides, réaliser des analyses par scanner ou plus ponctuellement recourir à des robots de maintenance et de livraison (A. Chun, In a time of coronavirus, China’s investment in AI is paying off in a big way, South China Morning post, 18 mars 2020), mais nous sommes loin des discours d’avant la crise où certains techno-évangélistes pensaient que cette technologie nous protègerait de tels événements planétaires. 

La manière dont est actuellement utilisée l’IA est donc assez révélatrice de ses atouts et de ses limites : efficace du fait de la puissance de ses capacités calculatoires avec de très grands jeux de données, elle ne semble pas encore pouvoir se substituer à l’expertise humaine pour concevoir un vaccin ou un traitement. Ses apports restent également indéniables pour organiser la connaissance et assister au contrôle des populations, voire appuyer les médecins pour un diagnostic, mais les événements paraissent conduire à une certaine modestie et révèlent surtout que les infrastructures sanitaires de certains pays ne sont pas scalables en temps de crise… et que ce n’est pas la technologie informatique seule (dont l’IA) qui est en mesure d’y apporter une solution.

La contribution de l’intelligence artificielle pour la recherche d’un traitement

La première application de l’IA attendue face à cette crise est certainement l’assistance aux chercheurs pour concevoir un vaccin, à même de protéger les soignants et d’endiguer la pandémie. Éloignons immédiatement l’idée d’une IA centrale à la création d’un tel traitement médical, puisque cette activité relève de la biomédecine et la recherche s’appuie sur de très nombreuses techniques parmi lesquelles les diverses applications de l’informatique et de la statistique ont déjà offert depuis bien longtemps des apports. 

Les prédictions de la structure du virus générées par l’IA pourraient toutefois faire gagner des mois d’expérimentation aux scientifiques. Notons en effet que l’IA semble déjà avoir apporté un appui notable, même s’il est limité du fait de règles dites « continues » et d’une combinatoire infinie, pour l’étude du repliement des protéines (voir à ce sujet O. Ezratty, Les conséquences pratiques d’AlphaGo Zero, Opinions Libres, 9 novembre 2017). La startup américaine Moderna à l’origine de l’un des premiers essais de vaccin s’est illustrée par sa maîtrise d’une biotechnologie fondée sur l’acide ribonucléique messager (messenger Ribonucleic acid – mRNA), qui aurait permis de réduire significativement le temps pour développer un prototype de vaccin testable sur l’homme et a probablement déployé ce type d’appui technologique (Moderna’s Work on a potential Vaccine against COVID-19). 

De même, le géant technologique chinois Baidu a publié en février 2020, en partenariat avec l’Université d’État de l’Oregon et l’Université de Rochester, son algorithme de prédiction Linearfold afin d’étudier le repliement des protéines. Cet algorithme est beaucoup plus rapide que les algorithmes traditionnels de repliement de l’acide ribonucléique (ARN) afin de prédire la structure de l’ARN secondaire d’un virus. Précisons que c’est ce type d’analyse relatif aux changements structurels secondaires entre les séquences de virus à ARN homologues (comme les chauves-souris et les humains) qui peut fournir aux scientifiques des informations supplémentaires sur la manière dont les virus se propagent. La structure secondaire de la séquence d’ARN du Covid-19 aurait ainsi été révélée par Linearfold en 27 secondes, au lieu de 55 minutes (Baidu, How Baidu is bringing AI to the fight against coronavirus, MIT Technology Review, 11 mars 2020). DeepMind, filiale de la société mère de Google, Alphabet, a également partagé ses prédictions sur la structure des protéines du coronavirus, avec son système d’IA AlphaFold (J. Jumper, K. Tunyasuvunakool, P. Kohli, D. Hassabis et al., Computational predictions of protein structures associated with COVID-19, DeepMind, 5 mars 2020). IBM, Amazon, Google et Microsoft ont également fourni la puissance de calculs de leurs serveurs aux autorités américaines pour pouvoir traiter les très grands jeux de données en matière d’épidémiologie, de bioinformatique et de modélisation moléculaire (F. Lardinois, IBM, Amazon, Google and Microsoft partner with White House to provide compute resources for COVID-19 research, Techcrunch, 22 mars 2020).

L’intelligence artificielle, moteur de partage de la connaissance

En pleine conscience des conséquences potentiellement catastrophiques pour les États-Unis, le Bureau des politiques scientifiques et technologiques de la Maison Blanche (Office of Science and Technology Policy) a rencontré pour sa part le 11 mars 2020 les entreprises technologiques et les groupes de recherche majeurs afin de déterminer comment les outils d’IA pourraient être utilisés pour, notamment, passer au crible les milliers d’articles de recherche publiés dans le monde sur la pandémie (A. Boyle, White House seeks the aid of tech titans to combat coronavirus and misinformation, GeekWire, 11 mars 2020). 

En effet, dès les semaines qui ont suivi l’apparition du nouveau coronavirus à Wuhan en Chine en décembre 2019, près de 2 000 articles de recherche ont été publiés sur les effets de ce nouveau virus, sur les traitements possibles, ainsi que sur la dynamique de la pandémie. Cet afflux de littérature scientifique témoigne naturellement de l’empressement des chercheurs à traiter cette crise sanitaire majeure, mais il représente également un réel défi pour quiconque espère en exploiter la substance. 

Microsoft Research, la National Library of Medicine et l’Allen Institute for AI (AI2) ont donc présenté leurs travaux le 16 mars 2020 qui ont consisté à rassembler et à préparer plus de 29 000 documents relatifs au nouveau virus et à la famille plus large des coronavirus, dont 13 000 ont été traités afin que les ordinateurs puissent lire les données sous-jacentes, ainsi que des informations sur les auteurs et leurs affiliations. Kaggle, filiale de Google et plateforme qui organise habituellement des concours de science des données (data science), a créé pour sa part des défis autour de 10 questions clés liées au coronavirus. Ces questions vont des facteurs de risque et des traitements non médicamenteux aux propriétés génétiques du virus en passant par les efforts de développement de vaccins. Le projet implique également l’initiative Chan Zuckerberg (du nom de Mark Zuckerberg, fondateur de Facebook, et de sa femme Priscilla Chan) et le Centre pour la sécurité et les technologies émergentes de l’université de Georgetown (W. Knight, Researchers Will Deploy AI to Better Understand Coronavirus, Wired, 17 mars 2020).

L’intelligence artificielle, observatrice et prédictrice de l’évolution de la pandémie

La société canadienne BlueDot est présentée comme ayant détecté le virus de manière précoce grâce à une IA, qui procède à l’examen continu de plus de 100 jeux de données, tels que les actualités, les ventes de billets d’avion, les données démographiques, les données climatiques et les populations animales. BlueDot a détecté une épidémie de pneumonie à Wuhan, en Chine, le 31 décembre 2019 et a identifié les villes qui risquaient le plus d’être confrontées à ce virus (C. Stieg, How this Canadian start-up spotted coronavirus before everyone else knew about it, CNBC, 3 mars 2020).

Une équipe de chercheurs travaillant avec le Boston Children’s Hospital a également mis au point une IA pour suivre la propagation du coronavirus. Appelé HealthMap, le système intègre des données provenant de recherches sur Google, de médias sociaux et de blogs, ainsi que des forums de discussion : des sources d’informations que les épidémiologistes n’utilisent généralement pas, mais qui sont utiles pour identifier les premiers signes d’une épidémie et évaluer la réaction du public (A. Johnson, How Artificial Intelligence is Aiding the fight Against Coronavirus, Datainnovation, 13 mars 2020).

Le Centre international de recherche sur l’intelligence artificielle (IRCAI) en Slovénie, placé sous l’égide de l’UNESCO, a lancé de son côté une veille médiatique « intelligente » sur le coronavirus appelée Corona Virus Media Watch qui fournit des mises à jour sur l’actualité mondiale et nationale en se basant sur une sélection de médias ayant des informations ouvertes en ligne. L’outil, conçu également avec l’appui de l’OCDE et la technologie d’extraction d’information Event Registry, est présenté comme une source d’information utile aux décideurs politiques, aux médias et au public pour observer les tendances émergentes liées au Covid-19 dans leur pays et dans le monde. 

L’intelligence artificielle, en assistance aux personnels soignants

Deux entreprises chinoises ont développé pour leur part un logiciel de diagnostic du coronavirus basé sur l’IA. La startup Infervision, basée à Pékin, a ainsi formé son logiciel à la détection des problèmes pulmonaires par tomodensitométrie (scanner). Utilisé à l’origine pour diagnostiquer le cancer du poumon, il peut également détecter les pneumonies associées à des maladies respiratoires comme le coronavirus. Au moins 34 hôpitaux chinois auraient utilisé cette technologie pour les aider à examiner 32 000 cas suspects (T. Simonite, Chinese Hospitals Deploy AI to Help Diagnose Covid-19, Wired, 26 février 2020). 

L’Alibaba DAMO Academy, branche de recherche de la société chinoise Alibaba, a également formé un système d’IA pour reconnaître les coronavirus avec une précision alléguée jusqu’à 96 %. Selon cette société, le système pourrait ainsi traiter les 300 à 400 scanners nécessaires pour diagnostiquer un coronavirus en 20 à 30 secondes, alors que la même opération prendrait habituellement entre 10 à 15 minutes à un médecin expérimenté. Ce système aurait aidé au moins 26 hôpitaux chinois à examiner plus de 30 000 cas (C. Li, How DAMO Academy’s AI System Detects Coronavirus Cases, Alizila, 10 mars 2020).

En Corée du Sud, l’IA aurait aidé à réduire à quelques semaines la conception de kits de dépistages basés sur la constitution génétique du virus, alors qu’il aurait fallu habituellement de deux à trois mois. La société de biotechnologie Seegene a ainsi utilisé son système de développement de tests automatisés pour mettre au point ce kit de dépistage et le distribuer largement. La réalisation de tests à grande échelle est en effet cruciale pour sortir des mesures de confinement et cette politique de tests paraît avoir contribué à la relative maîtrise de la pandémie dans ce pays, qui a équipé avec ce dispositif 118 établissements médicaux et testé plus de 230 000 personnes (I.Watson, S.Jeong, J.Hollingsworth, T.Booth, How this South Korean company created coronavirus test kits in three weeks, CNN World, 13 mars 2020).

L’intelligence artificielle, outil de contrôle de la population

L’exemple donné par Singapour pour maîtriser les risques épidémiques est certainement unique et difficilement exportable : délivrance d’un ordre de confinement pour les populations à risque, vérifications du respect des mesures par téléphone portable et géolocalisation, contrôles à domicile aléatoires. Et ce même modèle, basé sur une acceptation culturelle et sociale du contrôle, a également ses limites qui laissent craindre une augmentation des cas et rendre nécessaires l’adoption d’autres mesures (K. Vaswani, Coronavirus: The detectives racing to contain the virus in Singapore, BBC News, 19 mars 2020).

De manière plus générale, l’IA a été assez largement utilisée en appui de ce type de politiques de surveillance de masse. Ainsi, des dispositifs ont pu être utilisés pour mesurer la température et reconnaître les individus en Chine (M. Si, AI used in the battle against the novel coronavirus outbreak, China Daily, 6 février 2020) ou encore équiper les forces de l’ordre avec des casques « intelligents » dans la province du Sichuan, casques en mesure de signaler les individus avec une température corporelle élevée (High-tech helmets tackle temperature tasks, China Daily, 19 mars 2019). Les dispositifs de reconnaissance faciale ont toutefois connu des difficultés avec le port de masques chirurgicaux, ce qui a conduit une entreprise chinoise à tenter de contourner cette difficulté puisque nombre de services en Chine s’appuient désormais sur cette technologie, dont les services étatiques pour des mesures de surveillance. Hanvon allègue ainsi avoir créé un dispositif permettant d’augmenter le taux de reconnaissance des porteurs de masques chirurgicaux à 95% (M. Pollard, Even mask-wearers can be ID’d, China facial recognition firm says, Reuters, 9 mars 2020). La pandémie aura réussi à retrancher cette technologie dans ses limites de manière bien plus efficaces que les discours sur les droits fondamentaux…

En Israël, les premières étapes d’un plan visant à utiliser le suivi téléphonique individuel pour avertir les utilisateurs de ne pas côtoyer des personnes potentiellement porteuses du virus seraient en train d’être élaborées (A. Laurent, COVID-19 : des États utilisent la géolocalisation pour savoir qui respecte le confinement, Usebk & Rica, 20 mars 2020). En Corée du Sud, une alerte transférée aux autorités sanitaires se déclenche quand les personnes ne respectent pas la période d’isolement, en se rendant par exemple dans un lieu fréquenté comme les transports en commun ou un centre commercial (Ibid.). À Taïwan, un téléphone portable est remis aux personnes contaminées et enregistre leur position GPS pour que la police puisse suivre leurs déplacements et s’assurer qu’elles ne s’éloignent pas de leur lieu de confinement (Ibid.). En Italie, une entreprise a également développé une application sur téléphone intelligent (smartphone) permettant de reconstituer l’itinéraire d’un individu atteint du virus et d’avertir les personnes ayant eu un contact avec elle. D’après le concepteur, la vie privée serait garantie, car l’application ne révèlerait pas les numéros de téléphone ou des données personnelles (E. Tebano, Coronavirus, pronta la app italiana per tracciare i contagi: ‘Così possiamo fermare l’epidemia’, Corriere della Sera, 18 mars 2020). Reste à savoir si, dans ces temps justifiant des mesures extrêmement dérogatoires aux droits et libertés fondamentales, les intentions seront traduites d’effets. En Lombardie, les opérateurs téléphoniques ont mis à disposition les données concernant le passage d’un téléphone portable d’une borne téléphonique à une autre avec une certaine forme d’improvisation (M. Pennisi, Coronavirus, come funzionano il controllo delle celle e il tracciamento dei contagi. Il Garante: «Non bisogna improvvisare», Corriere della Sera, 20 mars 2020).

Aux États-Unis, l’on retrouve cette tension entre protection des intérêts individuels et collectifs. Ainsi, les GAFAM ont vraisemblablement trouvé l’occasion avec cette crise sanitaire d’améliorer leur image en fournissant, avec l’appui de l’IA, les moyens de traiter une masse considérable d’articles scientifiques (cf. supra). Mais ils disposent dans le même temps d’informations encore plus précieuses dont rêve tout décideur public dans cette période de crise sanitaire : une foule de données considérable sur la population américaine. Larry Brilliant, épidémiologiste et directeur exécutif du site Google.org, affirme ainsi pouvoir « changer le visage de la santé publique » et estime que « peu de choses dans la vie sont plus importantes que la question de savoir si les grandes technologies sont trop puissantes, mais une pandémie en fait sans aucun doute partie » (N. Scola, Big Tech faces a ‘Big Brother’ trap on coronavirus, POLITICO, 18 mars 2020).

Or tant après l’affaire Cambridge Analytica que Snowden, ces grandes entreprises technologiques ont surtout démontré pour l’instant une certaine incapacité à compartimenter l’emploi (ou le réemploi) des données dont elles disposent avec des finalités claires. Le gouvernement américain ayant demandé à ces entreprises d’avoir accès à des données agrégées et anonymes, notamment sur les téléphones portables, afin de lutter contre la propagation du virus (T. Romm, E. Dwoskin, C. Timberg, U.S. government, tech industry discussing ways to use smartphone location data to combat coronavirus, The Washington Post, 18 mars 2020), on comprend leur actuelle prudence au vu du risque juridique et du potentiel préjudice d’image (S. Overly, White House seeks Silicon Valley help battling coronavirus, POLITICO, 11 mars 2020). Relevons aussi que les entreprises qui seraient le plus à même de fournir des informations signifiantes, comme Google, Facebook ou Amazon, sont les mêmes qui se sont opposées sur tous les plans au gouvernement fédéral ces dernières années, qu’il s’agisse de vie privée, de concurrence ou de règles en matière de contenu. Une réglementation sur les données aurait vraisemblablement aidé à encadrer le dialogue entre le secteur public et privé, et à déterminer quels types d’urgences doivent faire primer l’intérêt collectif sur la protection des droits individuels (ainsi que les conditions et garanties d’un tel dispositif), mais le Congrès n’a toujours pas avancé depuis les deux dernières années sur une telle loi. L’urgence actuelle conduira peut-être à réaliser des avancées plus significatives, les crises majeures ayant parfois la particularité de nous renvoyer à notre condition et à l’essentiel.

Enfin, des tentatives de désinformation ont proliféré sur les réseaux sociaux et internet. Qu’il s’agisse du virus lui-même, de sa manière de se propager ou des moyens pour lutter contre ses effets, nombre de rumeurs se sont diffusées (“Fake news” et désinformation autour du coronavirus SARS-CoV2, INSERM, 19 février 2020). L’IA est une technologie déjà employée par les plateformes pour lutter contre diverses formes de désinformation et pourrait ici aussi jouer un rôle. L’UNICEF a adopté le 9 mars 2020 une déclaration sur la désinformation concernant le coronavirus dans laquelle elle entend prendre « activement des mesures pour fournir des informations précises sur le virus en travaillant avec l’Organisation mondiale de la santé, les autorités gouvernementales et des partenaires en ligne comme Facebook, Instagram, LinkedIn et TikTok, pour s’assurer que des informations et des conseils précis soient disponibles, ainsi qu’en prenant des mesures pour informer le public lorsque des informations inexactes apparaissent ». L’édiction au sein des Etats membres du Conseil de l’Europe des mesures restrictives pour éviter d’alimenter des inquiétudes dans la population est également envisagée. Le comité d’experts du Conseil de l’Europe sur l’environnement des médias et la réforme du Conseil de l’Europe (MSI-REF) a toutefois rappelé dans une déclaration du 21 mars 2020 que « la situation de crise ne doit pas servir de prétexte pour restreindre l’accès du public à l’information. Les États ne devraient pas non plus introduire de restrictions à la liberté des médias au-delà des limites autorisées par l’article 10 de la Convention européenne des droits de l’homme ». Le comité rappelle également que les « États membres, avec tous les acteurs des médias, devraient s’efforcer de garantir un environnement favorable à un journalisme de qualité ».

L’intelligence artificielle : un moyen ne devant pas conduire à éluder les difficultés structurelles des établissements de soins ni les droits fondamentaux

Les possibilités offertes par la technologie numérique, dont l’informatique et l’IA, s’avèrent donc être des instruments pertinents pour construire une réponse coordonnée contre cette pandémie. Les multiples usages illustrent également les limites des promesses et des possibilités de ces mêmes technologies, dont nous ne pouvons attendre qu’elles compensent des difficultés structurelles, comme celles que connaissent de nombreux établissements de soins dans le monde. Ceux-ci ont été taillés à la mesure d’une logique de fonctionnement fondé sur l’efficacité et le coût, et non sur leur mission qui devrait rester essentielle : un accès universel aux soins. 

Rappelons ainsi que l’article 11 de la Charte sociale européenne (ratifiée par 34 des 47 États membres du Conseil de l’Europe) édicte un droit à la protection de la santé qui engage les signataires « à prendre, soit directement, soit en coopération avec les organisations publiques et privées, des mesures appropriées tendant notamment : 1°) à éliminer, dans la mesure du possible, les causes d’une santé déficiente ; 2°)  à prévoir des services de consultation et d’éducation pour ce qui concerne l’amélioration de la santé et le développement du sens de la responsabilité individuelle en matière de santé ; 3°) à prévenir, dans la mesure du possible, les maladies épidémiques, endémiques et autres, ainsi que les accidents. »

Les mesures d’urgence prises, essentiellement restrictives de libertés ou de soutien aux entreprises, devraient donc pouvoir être suivies en sortie de crise par de nouvelles politiques publiques cessant de placer le numérique et l’IA comme l’instrument universel de réductions de coût et d’amélioration de l’efficacité. Restons également attentifs à ce que les mesures provisoires de suivi en masse de la population par les technologies ne deviennent pas banalisées et ne constituent pas notre nouveau quotidien (Yuval Noah Harari, Yuval Noah Harari: the world after coronavirus, The Financial Times, 20 mars 2020). Les standards en matière de protection des données, comme la Convention 108+ du Conseil de l’Europe, doivent pouvoir continuer à s’appliquer pleinement en toutes circonstances : qu’il s’agisse de l’utilisation de données biométriques, de la géolocalisation, de la reconnaissance faciale et de l’exploitation de données de santé, le déploiement d’applications en urgence doit pouvoir s’effectuer en concertation avec les autorités de protection des données et dans le respect de la dignité et de la vie privée des utilisateurs. Il devrait être considéré les possibles biais dans les divers types d’opérations de surveillance basés sur des données, qui sont susceptibles de créer d’importantes discriminations (A.F. Cahn, John Veiszlemlein, COVID-19 tracking data and surveillance risks are more dangerous than their rewards, NBC News, 19 mars 2020). Pensons également à la proposition de “dépistage pair-à-pair” émise par Joshua Bengio et Vargha Moayed consistant à une évaluation de la probabilité d’infection par une application mobile. Celle-ci reposerait notamment sur “une pression sociale pour télécharger l’application afin de pouvoir se déplacer librement à l’extérieur dans des endroits où se trouvent d’autres personnes”. Les auteurs ajoutent “Les gouvernements pourraient rendre obligatoire l’utilisation de l’application pour accéder à certains lieux accueillant un grand nombre de personnes, tels que les épiceries, les écoles et les universités” (V. Moayed, Y. Bengio, Dépistage pair à pair de la COVID-19 basé sur l’IA, Blog de Yoshua Bengio, 25 mars 2020). Outre la question de la fiabilité d’une telle évaluation et des discriminations inévitablement produites, se pose la question plus fondamentale du “solutionnisme” de la proposition. Il peut sembler surprenant de proposer une solution technologique, à laquelle tout le monde n’aura d’ailleurs pas accès, pour régler ce qui est avant tout un problème de moyens. Ne vaudrait-il mieux pas en effet diriger l’argent que coûterait une telle solution pour permettre aux systèmes de santé de répondre à leur mission première : permettre à chacun d’accéder à des soins de qualité.

Ces mêmes technologies peuvent s’avérer en revanche de précieux alliés de politiques systémiques et globales, replaçant la mission des services publics au cœur d’un projet de société sans frontières, réellement centré sur le progrès humain, dont les piliers incontestables sont les droits de l’homme, la démocratie et l’État de droit.

Sur quelles bases construire une régulation proportionnée de l’intelligence artificielle ?

Bibliographie de l’ouvrage “L’intelligence artificielle en procès”

Nous sommes loin d’en avoir fini avec la définition de ce que serait exactement l’intelligence artificielle (IA). Un rapport technique du centre commun de recherche de la Commission européenne paru en février 2020 a procédé à une analyse approfondie de cette question (B. Delipetrev, G. De Prato, F. Martínez-Plumed, E. Gómez,  M. López Cobo, S. Samoili, AI Watch – Defining Artificial Intelligence: towards an operational definition and taxonomy of artificial intelligence, Joint Research Centre of the European Commission, 27 février 2020). Les chercheurs de ce centre ont tenté de classifier cette technologie en procédant à une revue des définitions existantes dans des rapports institutionnels, des publications scientifiques et des études venant du secteur privé de 1955 à nos jours. L’équipe de recherche en a conclu à la découverte de 4 caractéristiques communes : a) la perception d’un environnement et de la complexité du monde, b) le traitement de l’information, en collectant et en interprétant des signaux d’entrée, c) la prise de décision, incluant le raisonnement, l’apprentissage et la réalisation d’actions et d) l’atteinte de buts prédéfinis.

Le réseau d’expert de l’OCDE sur l’IA (OECD Network of Experts on  AI – ONE AI) en a fait également l’une de ses thématiques de travail dans le cadre de l’opérationnalisation de ses principes en proposant dresser une classification des « systèmes d’intelligence artificielle », entendus comme un « système automatisé qui, pour un ensemble donné d’objectifs définis par l’homme, est en mesure d’établir des prévisions, de formuler des recommandations, ou de prendre des décisions influant sur des environnements réels ou virtuels », lesquels « sont conçus pour fonctionner à des degrés d’autonomie divers ». Le Conseil de l’Europe définit pour sa part cette technologie comme un « ensemble de sciences, théories et techniques dont le but est de reproduire par une machine des capacités cognitives d’un être humain ».

Même si des points de convergence se dessinent, les multiples facettes de l’IA (et de ses applications) conduisent donc à de grandes difficultés pour établir une définition et une classification communément partagées. Que l’on adopte un champ large ou restreint pour définir l’IA, chacun semble y mettre une part de sa subjectivité et, surtout, se projette dans une perspective propre à son champ d’expertise. Les juristes se retrouvent souvent fort démunis face à des débats technologiques et ont bien du mal à circonscrire dans leur propre champ étude cet objet si particulier, dans l’objectif d’en réguler les usages à partir de concepts technologiquement neutres. 

Une définition juridique de l’IA 

Pour bâtir une définition juridique de l’IA, commençons tout d’abord par questionner l’IA au regard de ses finalités dans un sens très large. Pour reprendre les éléments communs de définition précédemment évoqués, l’IA sert tout d’abord à automatiser des tâches. Notons que toute forme de programmation informatique répond à cet usage et il faudrait parvenir à isoler la singularité de l’IA par rapport à d’autres programmes informatiques. En première analyse, l’IA est donc souvent caractérisée par un comportement particulier : sa capacité à interagir avec son environnement et à traiter des signaux d’entrée pour prendre des décisions dans un but prédéfini.

Or, là encore, tous les programmes informatiques traitent des signaux d’entrée dans un but prédéfini (qu’il soit calculatoire, d’adaptation, de modification, de classification, d’enregistrement, de consultation, etc). L’apparence de prise de décision d’une IA pourrait paraître la singulariser mais, là encore, tout programme procède à des choix d’une complexité variable. Et même si les derniers développements de l’apprentissage automatique (machine learning) se révèlent parmi les complexes, l’on doit admettre dans le même temps que la complexité ne crée pas de l’intelligence (M. Amblard, Idée reçue : Les algorithmes prennent-ils des décisions ?, Interstices, 29 mars 2018).

De plus, il semble insuffisant de ne considérer que la composante mécanique sans considérer les flux qui l’animent. Contrairement à un carburant se limitant à irriguer un moteur thermique de voiture, les données ont un rôle de plus en plus structurant sur leur moteur algorithmique, notamment avec l’emploi d’apprentissage automatique. L’IA devrait donc être considérée en ce qu’elle constitue un système, et très précisément un système algorithmique, composée à la fois de son mécanisme et des flux de données alimentant ce mécanisme. Systèmes d’ailleurs qui ne créent pas tous les mêmes risques au regard a) du domaine de leur emploi (certains étant plus à risques, comme la justice ou la santé) et de b) leur cas d’usage précis (un robot conversationnel ne créé pas les mêmes risques qu’un outil d’aide à la décision – Voir Livre blanc sur l’intelligence artificielle de la Commission européenne, 19 février 2020, p.20). En ce sens, deux axes pourraient être considérés pour classifier les systèmes algorithmiques.

Un premier axe à considérer par une régulation : explicabilité, déterminisme et autonomie d’un système algorithmique

Il convient, à nouveau, de constater que le terme IA a désigné des réalités technologiques qui ont évolué en fonction des méthodes à la mode : approche descriptive et symbolique dans les années 1970-80, en écrivant des règles logiques signifiantes, et connexionniste aujourd’hui, en laissant la machine « découvrir » les corrélations entre des phénomènes traduits en données (c’est en cela que l’on dit qu’elle « apprend »). Ces deux formes d’automatisation ne présentent toutefois pas les mêmes caractéristiques d’explicabilité de leur fonctionnement sous-jacent : celle-ci serait plutôt meilleure pour les approches descriptives et plus en retrait pour les approches connexionnistes. 

Si l’on questionne ensuite l’IA au regard du produit de son fonctionnement, l’on peut également catégoriser ses résultats au moins en deux formes : la première est déterministe et la seconde non déterministe. La première forme est assez simple à comprendre et assez rassurante. A chaque entrée sera systématiquement corrélée la même sortie. L’on peut ainsi espérer que pour des besoins simplement calculatoires, la machine puisse être dans la capacité de produire toujours le même (et le bon) résultat. La seconde est plus complexe à appréhender. A chaque même entrée, le résultat en sortie sera susceptible de varier en raison de l’évolution d’autres variables employées par le système : il est en ainsi par exemple des systèmes de recommandation sur des sites marchands dont le résultat peut varier non seulement en fonction de vos propres interactions, mais également des interactions des autres utilisateurs appartenant au même groupe de profil statistique. 

Enfin se pose la question de l’autonomie du système, soit qu’il soit en capacité, une fois programmé ou entraîné, de faire interagir un opérateur humain pour son résultat final ou, au contraire, de s’en dispenser pour s’adapter, de manière autonome, à son environnement. Il va sans dire qu’en l’absence d’humain dans la boucle, se pose la question de la correction de dérives de systèmes et des facteurs d’alerte conduisant à une intervention humaine et d’une attention encore plus accrue sur leur fonctionnement.

Nous considérerons donc que l’ensemble de ces trois caractéristiques constituent ensemble un indicateur de complexité du système algorithmique devant conduire à considérer des instruments juridiques différents en fonction du risque encouru. Il manque toutefois une dimension à corréler à cet indicateur : celle de l’intensité de l’impact sur les individus et la société.

Un second axe à considérer par une régulation : l’impact probable du système algorithmique

Tous les systèmes algorithmiques ne justifient bien entendu pas les mêmes contraintes. Il pourrait donc être développé le concept « d’impact significatif » sur les individus ou la société, afin d’introduire une forme de proportionnalité dans l’intensité des mesures contraignantes au regard, notamment, des risques de violation des droits fondamentaux. 

Une échelle d’impact pourrait être construite, à l’image de celle proposée par la Commission d’éthique des données allemande (Datenethikkommission), fondée sur la combinaison de la probabilité de la survenue d’un dommage et la gravité de celui-ci. La mesure de cet impact pourrait résulter d’un cadre méthodologique précis tel qu’une étude d’impact préalable sur les droits de l’homme (voir en ce sens la Recommandation de la Commissaire aux droits de l’homme du Conseil de l’Europe, Décoder l’IA : 10 mesures pour protéger les droits de l’homme, p.7).

Des modalités de régulation proportionnelles à la combinaison entre complexité et impact probable 

Afin de distinguer les systèmes algorithmiques sur lesquels devraient reposer les contraintes les plus fortes, il pourrait être réaliser une combinaison entre complexité et impact probable sur les individus ou la société. Ainsi les systèmes cumulant faible explicabilité, non déterminisme et large autonomie devraient faire l’objet de contraintes règlementaires importantes (voire une prohibition) si leur impact probable est très élevé. Des mesures ex ante (mise en service conditionnée à une vérification ou une certification préalable) pourraient être édictées et accompagnées des mesures ex post spécifique (revue régulière de fonctionnement par un tiers accrédité).

Aucun texte alternatif pour cette image

Les systèmes avec un faible impact probable pourraient ne faire l’objet que de contrôles facultatifs, laissés à la discrétion de leurs concepteurs. Les recours devant les tribunaux resteraient ouverts en toute hypothèse en cas de dommage, étant précisé que la nature des mesures prises par les concepteurs pour prévenir les risques seraient de nature à modérer (ou aggraver) ensuite leur responsabilité. L’on retrouve là les mécanismes classiques connus dans la plupart des systèmes juridiques, dont l’adaptation aux spécificités de procédures de conception de systèmes algorithmiques est envisagée par la Commission européenne (dans le cadre de la responsabilité du fait des produits défectueux notamment).

Pourquoi nous devrions (ne pas) craindre l’IA

Bibliographie de l’ouvrage “L’intelligence artificielle en procès”

À longueur d’annonces, de débats, de conférences, d’articles, de reportages ou de livres, l’on ne cesse de nous présenter l’intelligence artificielle (IA) comme la technologie de rupture de la décennie, peut-être même du siècle. Des opportunités sans limites semblent s’ouvrir à l’humanité dans la mesure où nous serions à même de prévenir les risques dans un contexte d’usages sans cesse plus généralisés. Le « papier blanc » (white paper) sur l’IA de la Commission européenne, publié le 19 février 2020, s’approprie ce constat et pose les grandes options des lignes politiques de l’encadrement de cette technologie pour les années à venir. 

Les fantasmes s’agrègent toutefois dans les innombrables discours portant sur cette technologie et la redoutable complexité technique animant les discussions entre experts conduit à emplir l’espace public de représentations où chacun y laisse un peu de sa subjectivité et de sa vision du monde. Ayant ringardisé le terme mégadonnées (big data) et tantôt confondu avec l’informatique, le numérique ou même internet (voire les blockchains !), le terme « IA » (qui sera employé entre guillemets en substitution aux termes plus appropriés d’applications de l’intelligence artificielle)est devenu en ce début de siècle le mot-valise de référence en matière de technologies, qui emporte avec lui une assez grande variété de préoccupations.

« L’IA », un terme plastique devenu synonyme de progrès

Il faut dire que ce coup de force rhétorique de John McCarthy et Marvin Minsky, forgé en 1955/1956, continue à se déployer avec une grande vigueur du fait de sa plasticité, pour ne pas dire de son imprécision. Car plus l’on s’intéresse au sujet, plus l’on apprend à s’éloigner de ce terme… et plus l’on devient incompréhensible pour les profanes : qui se soucie en effet des différents bénéfices et des limites des réseaux de neurones profonds, des machines à vecteur de support, des réseaux bayésiens, des arbres de décisions et des systèmes experts, en dehors des techniciens de ces matières ? Nous vivrions donc une véritable ère de l’approximation, où la précision des termes et la réalité de la portée des technologies importerait moins que ce que l’on espère en faire, ne serait-ce que pour se donner le sentiment de rester adapté à son époque.

D’une manière certainement plus troublante, il est extrêmement déstabilisant de voir que le bénéfice du recours à ces ensembles de technologies, dans les aspects parfois les plus intimes de notre vie courante, n’est même plus questionné et que plus personne ne cherche à convaincre de ses vertus. « L’IA » est devenu le progrès et l’on ne questionne pas le progrès. Antoinette Rouvroy constate en ce sens un certain assèchement de la qualité du débat public et rappelle que « la gouvernementalité algorithmique, bien que soutenue parfois par des discours ressuscitant l’idée de progrès, ne se présente plus tant comme une alternative aux autres formes de gouvernement que comme leur destin inéluctable » (A. Rouvroy, “Adopt AI, Think Later – La méthode Coué au secours de l’intelligence artificielle”, 2020).

Que l’on s’estime « pour » ou « contre » (ou même au-dessus de ces débats), il faudrait donc arriver avant tout à se départir de cette sorte de sidération collective nous ayant saisis. Il paraît urgent de revitaliser les débats sur l’emploi de cette « IA » en revenant à de très simples bases pour commencer à ordonner une pensée critique, constructive et ambitieuse, à même de protéger de manière effective les individus et la société d’une certaine forme de dérives scientiste et mercantile paralysant le débat démocratique et les choix de société.

« L’IA », c’est quoi ?

À s’en tenir à la définition donnée par la Commission d’enrichissement de la langue française, l’IA est le « champ interdisciplinaire théorique et pratique qui a pour objet la compréhension de mécanismes de la cognition et de la réflexion, et leur imitation par un dispositif matériel et logiciel, à des fins d’assistance ou de substitution à des activités humaines ». On se trouve donc dans le champ des sciences cognitives et à l’intersection avec l’informatique dont l’ambition générale d’automatisation de tâches peut aisément se confondre avec l’ambition précise d’imiter le fonctionnement du cerveau humain pour parvenir à cette automatisation. Pour le reformuler, « l’IA » est une forme particulière d’application de l’informatique, dont la réalité technologique a évolué en fonction des méthodes à la mode : approche descriptive et symbolique dans les années 1970-80, en écrivant des règles logiques signifiantes, et connexionniste aujourd’hui, en laissant la machine « découvrir » les corrélations entre des phénomènes traduits en données (c’est en cela que l’on dit qu’elle « apprend »).

Ce qui devrait bien plus nous intéresser donc en terme de régulation, ce sont les questions posées par des systèmes complexes d’algorithmes en général plutôt qu’une technologie précise, et ce pour une application particulière : la prise de décision sans action humaine. Il devrait, de plus, être systématiquement adjoint au périmètre de réflexion les données alimentant ces systèmes. Car, contrairement à un carburant irriguant un moteur thermique de voiture, les données ont un rôle de plus en plus structurant sur leur moteur algorithmique, notamment avec l’apprentissage automatique (machine learning). Ce qu’il y aurait alors à craindre, ce ne serait pas une autonomisation de la machine qui s’en prendrait à son concepteur comme dans un mauvais film de science-fiction, mais bien plus d’un excès de confiance dans le pouvoir de ces technologies pour prendre, en toutes circonstances, de meilleures décisions que nous.

Aller plus loin que la simple balance bénéfices / risques

Alors qu’il est le plus souvent réalisé une balance spéculative entre des bénéfices et des risques probables, l’on omet par cette démarche simpliste de s’interroger sur la capacité de ces machines à manipuler avec efficacité les concepts dont elles sont nourries. Ainsi, l’emploi en informatique de données objectives et quantifiables conduit à des résultats bien plus robustes qu’avec des données subjectives (nécessitant une interprétation pour être transformées en données) et qualitatives. Déduire du succès d’AlphaGo des potentialités révolutionnaires dans tous les champs de l’activité humaine relève ainsi d’un excès d’optimisme dont il convient de se garder. Des encadrements bien plus contraignants devraient peser sur les systèmes manipulant des concepts potentiellement hasardeux ou n’ayant pas de fondement scientifique sérieux.

La deuxième question bien souvent éludée est celle de l’importante dette intellectuelle qui est en train de se cumuler en empilant des systèmes complexes dont l’on ne parvient plus à reconstituer le raisonnement. Affirmer, comme le chercheur Yann LeCun, que l’explicabilité n’est pas importante si l’on arrive à prouver que le modèle fonctionne bien tel qu’il est censé fonctionner, encourage en réalité à l’abandon de toute prétention à construire des théories scientifiques solides pour bâtir des applications. Cela revient également à faire primer les résultats sur la connaissance et à privilégier des objectifs à court terme au détriment d’un investissement à plus long terme, seul capable de bâtir des fondements solides à même de nous aider à aller plus loin que les fragiles mécanismes de l’apprentissage automatique (machine learning).  

La troisième et dernière question qui est minimisée en se focalisant sur l’équilibre entre les bienfaits et les dangers de « l’IA » est celle, fondamentale, du type de société dans laquelle nous souhaitons réellement vivre. À entendre les discours majoritaires sur le numérique et « l’IA », ce sont aujourd’hui les données qui constituent le principal gisement d’avenir pour le développement économique. Les discours s’affirment centrés sur l’humain et préoccupés du respect des droits fondamentaux mais se fondent en réalité sur une mystique numérique (Rouvroy, 2020) où tous les problèmes paraitraient pouvoir être résolus, directement ou indirectement, par ce moyen. « L’IA » est ainsi devenue un moyen qui s’est approprié les fins et qui va contribuer, si l’on n’y prend pas garde, à encore plus fragiliser nos institutions démocratiques sur lesquelles pèse déjà un lourd discrédit. En étant promoteurs d’un environnement numérique automatisant la prise de décision pour en expurger les biais des opérateurs humains, nous contribuons en réalité à saper les fondements d’une société basée sur la délibération et la primauté du droit au profit d’un « État des algorithmes », mathématisant les rapports sociétaux.

Le trop plein d’éthique et la nécessité d’une réponse juridique

Face à ces enjeux de « l’IA », une importante et dense réponse éthique s’est constituée depuis le milieu des années 2010. En s’accordant aux décomptes de l’Agence des droits fondamentaux de l’Union européenne, plus de 260 documents, textes et chartes non contraignants auraient été produits dans le monde en décembre 2019. Fortement inspirés de la bioéthique, les principes qui en découlent paraissent se regrouper en quelques catégories désormais bien identifiées comme la transparence, la justice et l’impartialité, la bienfaisance et la non-malfaisance, l’autonomie, la responsabilité, le respect de la vie privée, la robustesse et la sécurité, etc. Sans aborder les débats portant sur la subjectivité de l’éthique, il doit être simplement constaté que cette intense production a servi l’industrie numérique à déporter le discours de la nécessaire régulation de « l’IA » dans un champ plus souple et moins contraignant. Dépourvue de sanctions, l’éthique est en effet un instrument commode d’autorégulation dont il convient bien entendu de ne pas minimiser les bienfaits, mais dont la portée reste avant tout déclaratoire. 

L’autre faiblesse de cette éthique de « l’IA » est parfaitement révélée par les méta-analyses des cadres existants (voir par exemple A. Jobin, M. Ienca, E. Vayena, The global landscape of AI ethics guidelines, Nature Machine Intelligence, 2019). Cette éthique est loin d’être univoque et nombre de principes sont polysémiques, sans aucun dispositif d’interprétation pour en assurer la cohérence (comme les tribunaux quand il s’agit d’interpréter des règles de droit). De nombreuses institutions publiques, nationales et internationales, ont publié et vont continuer vraisemblablement de publier des textes non-contraignants et ainsi contribuer à stabiliser les débats, mais l’on se retrouve encore une fois ici bien éloignés de normes contraignantes accompagnées de mécanismes rigoureux de suivi et de sanctions en cas de manquement.

C’est en cela que le mandat du Comité ad hoc sur l’IA (CAHAI) du Conseil de l’Europe s’avère original et constitue, à ce jour, la meilleure opportunité pour fonder un cadre juridique d’application de cette technologie respectueux des valeurs fondamentales de nos sociétés : les droits de l’homme, l’État de droit et la démocratie. Rappelons qu’édicter des standards juridiques en la matière relève pleinement du mandat de cette organisation internationale, qui s’est déjà illustrée dès 1981 avec la Convention 108 sur la protection des données – « grand-mère » du RGPD – ou la Convention de Budapest en matière de lutte contre la cybercriminalité en 2001. Cette expérience rend légitime le Conseil de l’Europe à intervenir, en coordination avec l’Union européenne, l’OCDE et les Nations Unies, pour poser des bases juridiques de haut niveau, transversales et non spécialisées, sur lesquelles pourront ensuite entre bâtis des textes sectoriels précis, avec un niveau de contraintes (tant ex ante qu’ex post) proportionnels à l’impact prévisible sur les individus et la société. 

Une réponse juridique contraignante est la seule à même de donner suffisamment de substance aux discours sur l’humain, à créer de la confiance… et ainsi écarter les critiques de blanchiment des technologies par l’éthique. Sans oublier d’y inclure la question de l’impact du numérique sur l’environnement, qui va également constituer l’un des enjeux majeurs de notre temps.

L’intelligence artificielle en procès : le blog

Bibliographie de l’ouvrage “L’intelligence artificielle en procès”

En complément de l’ouvrage à paraître aux Editions Bruylant (coll. Macro droit – Micro droit) “L’intelligence artificielle en procès”, un blog hébergé dans l’univers du podcast “Les temps électriques” vient d’être mis en ligne pour approfondir certains des développements du livre.

Vous trouverez sur le blog non seulement des articles, anticipant ou complétant certains des axes de l’ouvrage, mais également des extraits d’actualités en lien avec la question de la régulation de l’intelligence artificielle.

Vos commentaires et réactions seront les bienvenus, chaque contribution étant postée également sur les réseaux sociaux.

Les cartes postales des Temps Electriques

L’été 2019 a été l’occasion de diffuser deux extraits du colloque “Un monde judiciaire augmenté par l’intelligence artificielle ?“, organisé le 25 juin 2019 par l’Institut PRESAJE à la Cour de cassation.

> Propos introductifs de Bruno Pireyre, Président de chambre, directeur du service de documentation, des études et du rapport de la Cour de cassation
> Intervention d’Adrien Basdevant, Avocat et co-auteur de l’ouvrage “L’empire des données”

Chronique de l’émission “Droit et mathématiques”

Droit et mathématiques : les frères ennemis ?

Invité : Jean Lassègue, chercheur au CNRS et co-auteur avec Antoine Garapon de l’ouvrage “Justice Digitale”, paru aux éditions des PUF

Questionner le rapport fondamental entre le droit et les mathématiques pourrait paraître surprenant (je ne dis pas dépassé) dans une émission dédiée au numérique.

Pourtant, les développements depuis 2010 d’une marque commerciale « intelligence artificielle » (ou IA) a réactivé l’utilisation massive du formalisme mathématique, plus précisément des statistiques, pour traiter des masses considérables de données avec des prétentions bien connues : modéliser des comportements, des actions non seulement afin de les automatiser (les reproduire) mais peut-être même les anticiper. C’est bien là le cœur des algorithmes d’apprentissage dits de machine learning, derrière lesquels il n’y a aucune magie autre que la construction automatique de modèles mathématiques en découvrant les liens (corrélations) cachés dans la masse des données qu’on leur fait ingurgiter.

Cet émerveillement (cette sidération même) qui a saisi l’humanité entière en voyant AlphaGo, une IA spécialisée au jeu de go, plier en deux temps trois mouvements le meilleur joueur humain (puis d’ailleurs se battre elle-même, dans une sorte d’extraordinaire mise en abyme), a conduit à un grand trouble. Un grand malentendu même.

De manière assez opportune, l’industrie numérique a réanimé des qualifications anthropomorphiques pour désigner ce traitement massif de données statistiques (intelligence, neurone, apprentissage) et, peut-être, éviter de convoquer les décennies de débat sur les apports des sciences dures. Or, comme le dit Pablo Jensen dans son livre « Pourquoi la société ne se laisse pas mettre en équation ? », il y a des faits têtus dans les sciences naturelles que l’on ne peut ne balayer d’un revers de main, mais quand l’on arrive à traiter de phénomènes sociaux, il est bien plus difficile de trouver des relations stables.

La systématisation de l’application de l’IA dans tous les champs de l’activité humaine relève donc clairement du solutionnisme, dénoncé par Evgeny Morozov dans « Pour tout résoudre, cliquez ici ».

Peut-être faut-il donc revenir aux bases, qualifier ce que l’on voit avec des mots précis et identifier ce que l’histoire nous appris.

Sans s’égarer dans le temps avec notre DeLorean de Retour vers le futur (oui la production d’Amicus Radio dispose d’un budget démentiel), remontons un instant au XVIIIème siècle : le marquis de Condorcet, influencé par les savants de l’Italie du Nord comme Beccaria qui tentent de formaliser le réel, écrit des premiers essais sur les mathématiques sociales  et, déjà, sur la jurisprudence dans un texte inachevé « sur les lois criminelles en France ». Avançons brièvement vers Adolphe Quételet au XIXème siècle cette fois-ci : docteur en mathématiques, il a développé pour sa part la « physique sociale », érigeant l’homme moyen comme valeur centrale. Un brin effrayant peut-être… Auguste Comte réagira à ces idées et développera ce qui allait devenir la sociologie… 

Quels enseignements tirer de cela ? Est-ce qu’il n’y aurait finalement pas une forme de totalitarisme à faire rentrer les humains dans des cases logiques ? L’irrationnel comportement (apparent) de l’humain et ses contradictions ne sont-elles pas mieux régulées par le droit, et sa texture ouverte, que des règles logiques ? 

Jean Lassègue et Antoine Garapon ont traité de la révolution que nous sommes en train de vivre sous l’angle d’une révolution graphique, d’une nouvelle forme d’écriture qui s’imposerait à nous… écriture purement mathématique. 


Ecoutez l’entretien avec Jean Lassègue, chercheur au CNRS et co-auteur avec Antoine Garapon de l’ouvrage “Justice Digitale”, paru aux éditions des PUF

Pourquoi la justice résiste-t-elle aux algorithmes ?

Texte et vidéo du TEDx Issy-les-Moulineaux “Retour au local”
22 novembre 2018 (Issy-les-Moulineaux)

Séquence 1 | La résistance des tribunaux au changement : une idée à modérer 

Les magistrats ne sont pas résistants culturellement au numérique : nombre de juges, procureurs et greffiers sont sur les réseaux sociaux ; certains développent même des applications !

La justice n’a pas été en retard pour intégrer l’informatique : dès les années 80 le Casier judiciaire a été informatisé ; le problème c’est que certains des outils sont devenus obsolètes…

ALORS OUI, il y aurait une urgence à se saisir dès aujourd’hui des derniers développements technologiques comme l’IA pour contribuer à combler le fossé entre les citoyens et la justice (constat d’un déficit de confiance entre eux et la justice, le temps et l’aléa sont devenus inacceptables) afin d’offrir des services en accord avec notre temps

Comment passer de l’incantation à la réalité, en ne piétinant pas certains principes fondamentaux : Et si au lieu de tenter construire des cathédrales numériques (des gros systèmes) l’idée d’un retour à un dialogue de proximité, local était une solution ? Avant d’énoncer une solution, analysons la situation – spécifiquement avec de l’IA !


Séquence 2 | Une des possibles raisons de la résistance des juges à l’IA ?

Une hypothèse : et si ce n’était du corporatisme ? A moins que le formalisme mathématique ne soit pas suffisant pour modéliser de manière rigoureuse le raisonnement judiciaire ?

Ce que l’on appelle aujourd’hui IA n’est qu’une grosse machine qui fait des modèles mathématiques et statistiques : l’IA de Terminator n’est pas prête d’exister, les développements d’aujourd’hui (machine learning) sont une représentation statistique d’un environnement donné

Cela marche bien dans un environnement fermé avec des choses quantifiables physiquement : on peut construire une prévision du nombre possible du nombre de vente de crèmes glacées en fonction de la  température de l’air

Mais il est plus difficile de trouver des constantes dans les phénomènes sociaux : moins de stabilité dans les relations sociales que dans les phénomènes physiques (Jensen) – il en est de même quand il faut traiter des conflits

  • C’est le mirage de la justice prédictive et le danger du « solutionnisme » (Morozov) c’est-à-dire croire que le numérique peut tout résoudre
  • Risque des biais (raciaux – par exemple aux États-Unis avec COMPAS)

Alors on jette tout et on n’en fait rien ? Ce serait une erreur !


Séquence 3 | Une possible solution ? Réinventer la justice par le numérique via une construction pluridisciplinaire en revenant… au local

Comprendre les phénomènes sociaux exigent une approche pluridisciplinaire au plus près des citoyens : exemple de la méthode de la déclaration de Montréal pour associer les citoyens à la définition de valeurs à protéger ou à promouvoir en organisant des ateliers dans des bibliothèques

Ouvrons les portes à un travail agile entre différents métiers, afin de bâtir des applications Human rights by design : c’est ce que souhaite défendre comme vision le Conseil de l’Europe dans sa politique de régulation de l’IA

En n’oubliant pas un enjeu spécifique à la justice, mais les professionnels du droit vous le rappellerons : conserver la symbolique même si l’on est à l’ère numérique. Le procès est un rite de passage de la conflictualité à l’apaisement, avec l’autorité de la société dans son ensemble – nécessite parfois du temps… et ne pas confondre aléa avec personnalisation.


Conclusion : Créer de la confiance entre la justice et les citoyens passera par des technologies numériques qui ont pleine conscience des enjeux particuliers locaux

Prenons l’exemple du laboratoire de Cyberjustice de Montréal : résultats remarquables en attirant les meilleurs talents venant du droit, des sciences sociales, du numérique. Pourquoi pas un laboratoire français voire européen, travaillant au plus près des besoins des citoyens ? Et des professions ?

Et si le service public se donnait les moyens de Hacker les hackers ! Se saisir des méthodes, de l’adaptabilité, de l’ouverture d’esprit ? C’est dans la proximité que nous devrions envisager l’avenir d’une justice numérique que nous nous devons d’inventer ensemble !


Retrouvez l’enregistrement vidéo sur Youtube en cliquant ici.

Chronique de l’émission “Intelligence artificielle et procès pénal”

Intelligence artificielle et procès pénal : l’illusion d’un destin ?

Invitée : Clementina Barbaro, chef d’unité au Conseil de l’Europe

Comme les bains de photographie argentique parviennent à révéler l’imperceptible d’une prise de vue, l’intelligence artificielle (IA) nous promet de dévoiler, par le formalisme mathématique et statistique, de l’information dans le canevas des données que nous produisons de plus en plus massivement.

Appliqué au champ de la justice pénale, plusieurs réalisations, déjà fonctionnelles aux Etats-Unis, visent à prévenir la commission d’infractions, notamment par des sortes de cartographies « prédictives », ou à évaluer les risques de réitération d’un individu.

La ville de Santa Cruz a été la première à se doter, en juillet 2011, d’un outil baptisé PredPol (pour predictive policing), qui vise à prédire où et quand un crime va se produire. Il n’y a aucun « precog » derrière tout cela, comme dans le film Minority Report, mais une base de données recensant les infractions passées et la formule magique de notre ère de l’IA : des modèles mathématiques et statistiques – secrets – qui projettent du passé un possible avenir. De telles solutions sont déjà testés dans de nombreux pays européens.

Nous pourrions prendre aussi l’exemple de l’algorithme COMPAS  qui est utilisé de manière effective dans certains États américains afin d’évaluer la dangerosité des individus en vue de leur éventuel placement en détention provisoire ou lors du prononcé d’une condamnation pénale. Cet algorithme n’a rien de fantaisiste : il s’appuie sur des études académiques en criminologie et en sociologie, sur différents modèles statistiques et le traitement d’un questionnaire de 137 entrées, relatif à la personne concernée et à son passé judiciaire sans aucune référence à son origine ethnique. Le système fournit ensuite au juge différents « scores » à un horizon de deux années : risque de récidive, risque de comportement violent et risque de non-comparution pour les situations de placement en détention provisoire.

Toutefois, en mai 2016, les journalistes de l’ONG ProPublica ont analysé l’efficacité des « prédictions » de  COMPAS sur une population de près de 10 000 individus arrêtés dans le comté de Broward (Floride) entre 2013 et 2014. Cette étude a révélé non seulement un taux relativement faible de « prédictions » justes (61%) mais, en procédant à l’analyse approfondie des « faux positifs », elle a par ailleurs établi que les populations afro-américaines étaient pondérées d’un plus fort risque de récidive que les populations blanches. Inversement, les populations blanches ayant effectivement récidivées avaient été deux fois plus classifiées comme étant en risque faible que les populations afro-américaines. 

En d’autres termes, sans inclure l’ethnie des individus ou avoir été spécifiquement conçu pour traiter cette caractéristique, le croisement des données (dont le lieu de résidence) a indirectement surpondéré cet aspect au détriment d’autres facteurs sociaux individuels (éducation, emploi, parcours familial) et a conduit à influencer les juges avec des indicateurs proprement discriminatoires.

Cette perspective, effrayante, est-elle une réalité fonctionnelle ou juste des épiphénomènes, un peu gonflé par la presse ?

Profitons de l’expertise de Clementina Barbaro, qui est chef d’unité au Conseil de l’Europe. Elle a notamment animé les derniers travaux de la CEPEJ sur l’IA dans les systèmes judiciaires et elle intervenue notamment au Sénat, en juin 2018, et dans plusieurs forums européens sur la question !


Ecoutez l’entretien avec Clementina Barbaro, chef d’unité au Conseil de l’Europe

Pourquoi la justice résiste-t-elle aux mathématiques ?

Texte et vidéo de la 2ème séance du séminaire  de l’IHEJ “Droit et mathématiques”
8 novembre 2018 (ENM Paris)

Retrouvez l’enregistrement vidéo de la 2ème séance du séminaire sur Youtube en cliquant ici.


 « Tout ce qui est neuf n’est pas nécessairement nouveau ». Cette pensée, prêtée à Paul Ricœur, semble parfaitement pouvoir tempérer les derniers développements de la transformation numérique que nous vivons, dont les tentatives de traiter des décisions de justice avec le formalisme mathématique à des fins prédictives. L’on connaît pourtant déjà bien les limites des tentatives de description des phénomènes sociaux par des équations : mais l’enchantement collectif opéré par le seul énoncé du terme, vague et marketing, d’« intelligence artificielle » (IA) semble avoir parfaitement occulté la réalité concrète de la technologie sous-jacente de cette dernière mode. L’apprentissage automatique (machine learning) et ses dérivés ne sont en fait qu’une manière de créer de l’information en donnant du sens à des données par diverses méthodes statistiques bien connues (comme la régression linéaire).

Dans ce contexte de confusion assez généralisée, les mathématiques seraient devenues pour Cathy O’Neil, scientifique des données (data scientist), une nouvelle « arme de destruction massive » car, malgré leur apparente neutralité, elles serviraient à des calculs algorithmiques si denses qu’il serait difficile, voire impossible, de rendre transparent les choix parfois arbitraires de leurs concepteurs[1]. Leur utilisation décomplexée serait même susceptible de renforcer de manière inédite les discriminations et les inégalités en « utilisant les peurs des personnes et leur confiance dans les mathématiques pour les empêcher de poser des questions[2] ».

Le constat ainsi posé est pertinent : ne devons-nous pas traiter prioritairement des questions de la difficulté à utiliser ce formalisme pour décrire les phénomènes sociaux et des changements profonds de gouvernance induits au lieu de spéculer de manière stérile sur des risques relevant de la pure science-fiction, notamment en ce qui concerne l’IA[3] ? Il y a donc un effort de définition à réaliser avant toute tentative d’analyse car sans vocabulaire clair, l’on ne peut construire de pensée claire (1). Appliqué aux décisions de justice, les modèles mathématiques peinent à rendre compte de l’entière réalité qu’ils prétendent décrire et ne peuvent se prêter qu’imparfaitement à des finalités prédictives ou actuarielles (2). La critique de la commercialisation hâtive de solutions d’IA aux potentialités parfois surévaluées risque par ailleurs de troubler la compréhension des réels enjeux de transformation numérique qui se jouent pourtant devant nos yeux (3).

1. Un formalisme mathématique performant pour des tâches très spécialisées

La croissance exponentielle de l’efficacité du traitement informatique des données depuis 2010 est totalement à distinguer des progrès considérables restant à réaliser par la recherche fondamentale pour parvenir à modéliser une intelligence aussi agile que l’intelligence humaine. Certains avaient cru pouvoir réduire celle-ci à « 10 millions de règles[4]  » : des chercheurs comme Yann LeCun affirment aujourd’hui que l’IA se heurte en réalité à une bonne représentation du monde, qui est une question « fondamentale scientifique et mathématique, pas une question de technologie[5] ». Une dichotomie est donc parfois réalisée entre l’« IA forte » de science-fiction (généraliste, auto-apprenante et adaptable de manière autonome à des contextes tout à fait différents), et les IA « faibles » ou « modérées » actuelles, ultra-spécialisées et non-adaptables de manière totalement autonome à des changements complets de paradigme[6]. Cette distinction ne clarifie toutefois pas ce que l’on entend par « intelligence » et alimente nombre de malentendus et de fantasmes, entretenus et véhiculés par les médias, qui ne parviennent pas toujours à décrypter les discours commerciaux et à vulgariser des concepts en jeu[7].

Commençons par rappeler que les mécanismes actuellement mis en œuvre sous le terme très plastique « d’IA » sont pluriels et connus pour la plupart de longue date[8]. Ce qui est nouveau, en revanche, c’est leur synergie avec d’autres technologies (blockchains, biotechnologies, nanotechnologies, sciences cognitives) ainsi que leur efficacité de traitement rendues possibles par la performance des processeurs actuels (notamment des cartes graphiques, à même d’exécuter avec performances des méthodes dites d’apprentissage, nous y reviendrons) et la disponibilité d’une quantité considérable de données (big data) depuis quelques années.

Pour être plus précis, l’apprentissage automatique (sous ses diverses formes) a contourné de manière extrêmement astucieuse les limites des anciens systèmes experts, qui exigeaient de programmer a priori des règles logiques de traitement de données pour imiter un raisonnement. Les approches actuelles sont plus inductives : l’idée est de réunir un nombre suffisant de données d’entrée et de résultats attendus en sortie afin de rechercher de manière (plus ou moins) automatisée les règles pouvant les lier. En d’autres termes, cette recherche automatisée (qui est ce que l’on entend par apprentissage) est une représentation mathématique et statistique d’un environnement donné. L’objectif pour les ingénieurs n’est pas prioritairement de comprendre les règles ou les modèles automatiquement construits par l’ordinateur mais de s’assurer que la machine arrive à reproduire de mieux en mieux les résultats attendus, si nécessaire avec toujours plus de données par des phases successives ou continues de recherche.

Pour reformuler les concepts esquissés :

•           l’IA n’est pas un objet unique et homogène : il s’agit en réalité d’une discipline très large aux contours mouvants, assemblage de sciences et techniques (mathématiques, statistiques, probabilités, neurobiologie, informatique) ; le terme, auparavant confondu avec « systèmes experts », est maintenant généralement confondu avec l’apprentissage automatique (machine learning), dont il est principalement question dans la plupart des développements commerciaux actuels ;

•           l’apprentissage automatique fonctionne par une approche inductive très différente de la cognition humaine : l’idée est d’associer de manière plus ou moins automatisée un ensemble d’observations (entrées) à un ensemble de résultats possibles (sorties) à l’aide de diverses propriétés préconfigurées afin de détecter des corrélations (susceptibles d’ailleurs être fallacieuses et non représentatives d’une causalité[9]) ;

•           la fiabilité du modèle construit sur cette base dépend fortement de la qualité des données utilisées : les biais présents dans les données seront inéluctablement reproduits dans les modèles qui, sans correctif, ne feront que les renforcer.

Le concept d’IA est donc globalement à démystifier si l’on s’en tient à une interprétation stricte du mot « intelligence ». Nous avons en réalité affaire à des systèmes computationnels complexes et non à des répliques (même sommaires) du cerveau humain (qui inclut des processus perceptifs, l’apprentissage, l’auto-organisation, l’adaptation). Prenons l’une de sous-classes de l’apprentissage automatique, les réseaux de neurones : si leur conception est bien inspirée des neurones biologiques, leur fonctionnement est en réalité fortement optimisé par des méthodes probabilistes dites bayésiennes. En d’autres termes, ces réseaux sont aussi comparables à de réels neurones que les ailes d’un avion sont similaires à celles d’un oiseau[10].

Utilisé dans des environnements fermés, comme le jeu de go ou avec des données quantifiables sans aucune ambiguïté, les résultats peuvent être tout à fait exaltants au prix d’un très fort (et coûteux) investissement… humain[11]. Mais il serait très hâtif d’interpréter ces réussites dans des champs très étroits comme les prémisses de l’avènement d’une IA générale, nouveau Saint Graal des chercheurs[12] ni comme aisément transférables telles quelles pour d’autres applications. Exécuté dans des environnements ouverts et moins facilement quantifiables, ce formalisme est plus difficilement opérant : ce constat est particulièrement vrai lorsque l’on tente de mesurer des phénomènes sociaux où « il est bien plus difficile de retrouver une relation stable » que dans les sciences naturelles, riches de « faits têtus que l’on ne peut éliminer d’un revers de main »[13].

2. Un formalisme mathématique insuffisant à traduire fidèlement la mémoire de la justice 

Malgré ce simple constat, il n’aura toutefois pas fallu attendre très longtemps pour que des entrepreneurs tirent profit de l’engouement suscité par l’apprentissage automatique pour développer des solutions commerciales dans de très nombreux secteurs d’activité (commerces, transports, industries, urbanisme, médecine, …) à la recherche de nouveaux marchés, sans réelle conscience de la complexité de certains objets traités[14]. Ainsi, le droit a été une cible de choix, l’apparente logique du raisonnement juridique (dont le syllogisme des décisions judiciaires) conduisant les mathématiciens à penser qu’il y avait là matière à exploitation. Conjugué à un besoin (celui de rendre la réponse judiciaire plus prévisible) et à quelques idées reçues en découlant (tel que le fait que « l’aléa judiciaire » ne serait le résultat que des biais humains des juges et non d’un effort d’individualisation des décisions), des investisseurs, comme les assureurs, ont sponsorisé les coûteux développements de solutions d’apprentissage automatique avec des décisions judiciaires[15].

Quelle que soit la dénomination commerciale (justice prédictive, quantitative ou actuarielle), les applications développées recouvrent une même et unique réalité qui consiste à établir, pour des contentieux chiffrables comme la réparation du préjudice corporel, le droit du travail ou le divorce, divers types de probabilités sur la possible issue d’un litige en traitant non un récit brut mais des faits déjà qualifiés juridiquement. La construction de modèles mathématiques va donc s’appuyer sur une matière première, les décisions de justice déjà rendues dans ces types de contentieux, et l’apprentissage automatique pour découvrir des corrélations. Concrètement la machine va rechercher dans divers paramètres identifiés par les concepteurs (comme la durée du mariage, la situation professionnelle, la disparité de situation patrimoniale, l’âge et l’état de santé des parties pour les prestations compensatoires) les possibles liens avec les résultats prononcés par le tribunal (le montant de la prestation prononcée en fonction de ces critères). L’application de cette démarche au contenu d’un jugement exige toutefois une extrême rigueur, les corrélations d’ordre linguistique découvertes dans les décisions étant loin de pouvoir être interprétées de manière irréfutable comme des rapports de cause à effet[16].

Trois critiques principales sont à formuler à l’encontre de cette démarche de traitement de données issues de décisions judiciaires :

Ce formalisme, tout d’abord, ne permet pas de révéler la complexité des raisonnements juridiques opérés[17] – Il doit en effet être rappelé, comme l’a mis en lumière la théorie du droit, que le raisonnement judiciaire est surtout affaire d’interprétation. C’est que le fameux syllogisme judiciaire est plus un mode de présentation du raisonnement juridique que sa traduction logique, il ne rend pas compte de l’intégralité du raisonnement tenu par le juge, lequel est ponctué d’une multitude de choix discrétionnaires, non formalisables a priori. La cohérence d’ensemble des décisions de justice n’est jamais assurée et relèverait davantage d’une mise en récit a posteriori, que d’une description stricte de l’intégralité de ces décisions[18]. Or, l’apprentissage automatique est inopérant à effectuer ce travail d’interprétation, les concepteurs espérant tout au plus que la détection de régularité dans les contextes lexicaux réussisse à reproduire en sortie les mêmes effets que le processus décisionnel réel ayant produit ces données.

Un examen des travaux de l’University College of London, laquelle a annoncé être parvenue catégoriser correctement 79 % des décisions de la Cour européenne des droits de l’homme (violation ou non violation), confirme bien ce diagnostic[19]. Ces chercheurs n’ont en réalité été capables de ne produire une probabilité qu’à partir d’un matériel déjà traité juridiquement, qui renseignerait davantage sur la pratique professionnelle des juristes du greffe de la Cour (qui utilisent parfois des paragraphes pré-rédigés en fonction du traitement et de l’issue donnés à l’affaire) que sur le sens de la réflexion juridique[20]. Miroir de la représentation graphique d’un échantillon de décision, elle parvient au mieux à grouper des documents respectant le même formalisme mais peinerait sans nul doute très fortement à partir d’un récit brut d’un futur requérant devant la Cour de Strasbourg. Ces résultats sont surtout totalement étrangers à la question de la conformité en droit de telle ou telle solution, dès lors que ces calculs de probabilités ne peuvent pas discriminer entre les raisonnements juridiquement valides et ceux qui ne le sont pas.

Enfin, de tels calculs probabilistes ne sauraient en aucun cas épuiser le sens de la loi, comme l’a montré la question de l’utilisation des barèmes judiciaires : si tant est que ces barèmes aient toujours une pertinence statistique, ils ne sauraient, du seul fait de leur existence, se substituer à la loi elle-même, en réduisant notamment la marge d’interprétation que celle-ci offre nécessairement au juge[21].

Ce formalisme seul ne permet pas, par ailleurs, d’expliciter le comportement des juges[22] – L’autre grand mythe véhiculé par le discours de promotion des outils issus de l’IA serait leur capacité à expliquer les décisions de justice. Certaines legaltech ont en effet affirmé pouvoir identifier d’éventuels biais dus à la personne des magistrats, de nature à nourrir des suspicions de partialité. L’exploitation des noms des présidents de formation de jugement des juridictions administratives en open data avait permis un temps de construire un indicateur nominatif du taux de rejet de recours contre les obligations de quitter le territoire français[23]. Il n’est dès lors pas étonnant que l’une des principales questions qui animent encore le débat autour de ces nouveaux outils porte sur l’accès au nom des professionnels dans les décisions judiciaires ouvertes, notamment des magistrats[24]. Mais, peut-on réellement parvenir à éclairer le comportement des juges sur la base d’un traitement algorithmique des occurrences de leurs noms dans certaines décisions de justice ?

D’un point de vue scientifique, expliquer un phénomène ou, pour ce qui nous concerne, un comportement humain (celui d’un juge), revient à déterminer les mécanismes de causalité ayant conduit à ce comportement en présence d’un certain nombre de données contextuelles. Cela nécessite la constitution préalable d’un cadre interprétatif, constitué par les hypothèses ou points de vue adoptés par les différentes disciplines des sciences sociales[25].

Rappelons que l’IA bâti des modèles en tentant de révéler des corrélations dissimulées dans un grand nombre de données. Or, la seule corrélation statistique entre deux événements est insuffisante pour expliquer les facteurs réellement causatifs[26]. Appliqué au droit et aux décisions judiciaires, on mesure immédiatement ce qu’il peut y avoir de scientifiquement erroné et d’idéologique dans l’ambition de rendre objective la décision des juges grâce à des algorithmes. Fournir une véritable explication d’un jugement nécessiterait une analyse beaucoup plus fine des données de chaque affaire et ne saurait naître spontanément d’une masse de liens lexicaux dans lesquels figure le nom d’un magistrat. Par exemple, le fait qu’un juge aux affaires familiales fixe statistiquement davantage la résidence habituelle d’un enfant chez la mère dans un ressort déterminé ne traduit pas nécessairement un parti-pris de ce magistrat en faveur des femmes, mais s’explique davantage par l’existence de facteurs sociaux-économiques et culturels propres à la population de sa juridiction. De même, il paraît difficile d’attribuer une tendance décisionnelle à une formation juridictionnelle collégiale sur la seule base du nom de son président.

Les risques d’explications faussées des décisions de justice s’avèrent donc extrêmement élevés sur la base des seuls calculs probabilistes opérés. L’espoir de voir émerger du traitement par les IA une information de nature à produire une « norme issue du nombre » imposant aux juges un « effort renouvelé de justification » pour expliquer l’écart à la moyenne doit donc être largement tempéré au vu de la compréhension technique de la mécanique produisant cette moyenne[27]. Surtout, la seule valeur statistique des résultats obtenus demeure bien souvent hautement questionnable en l’absence d’une véritable maîtrise du périmètre des données prospectées et de l’effet « boîte noire » de certains algorithmes tels que l’apprentissage profond[28] (deep learning). De plus, comme l’a montré l’émergence des grilles de barèmes judiciaires, la tentation peut être grande pour les concepteurs de ces outils de se livrer à du data-snooping, c’est-à-dire à ne sélectionner en amont que des données de manière à ce qu’elles puissent être significatives au regard de grilles d’analyse prédéterminées, par exemple en éludant de l’échantillon des décisions se prêtant mal à des corrélations de séquences linguistiques (des décisions sans exposé du litige par exemple)[29].

Plus grave encore, les modèles d’apprentissage peuvent potentiellement reproduire et aggraver les discriminations[30] – Les différentes techniques de l’apprentissage automatique paraissent en effet en elles-mêmes neutres en termes de valeurs sociales : que l’apprentissage soit supervisé ou non, avec ou sans renforcement, s’appuyant sur des machines à support de vecteur ou des réseaux de neurones profonds, les sciences fondamentales qui les animent sont avant tout un formalisme. En revanche, l’utilisation de ce formalisme avec une méthode et des données biaisées entraînera systématiquement des résultats biaisés.

Prenons l’exemple de l’algorithme COMPAS[31] qui est utilisé de manière effective dans certains États américains afin d’évaluer la dangerosité des individus en vue de leur éventuel placement en détention provisoire ou lors du prononcé d’une condamnation pénale.  Cet algorithme s’appuie sur des études académiques en criminologie et en sociologie, sur différents modèles statistiques et le traitement d’un questionnaire de 137 entrées, relatif à la personne concernée et à son passé judiciaire sans aucune référence à son origine ethnique[32]. Le système fournit ensuite au juge différents « scores » à un horizon de deux années : risque de récidive, risque de comportement violent et risque de non-comparution pour les situations de placement en détention provisoire. La démarche apparaît a priori pluridisciplinaire et fondée scientifiquement.

Toutefois, en mai 2016, les journalistes de l’ONG ProPublica ont analysé l’efficacité des « prédictions » de  COMPAS sur une population de près de 10 000 individus arrêtés dans le comté de Broward (Floride) entre 2013 et 2014[33]. Cette étude a révélé non seulement un taux relativement faible de « prédictions » justes (61%) mais, en procédant à l’analyse approfondie des « faux positifs », elle a par ailleurs établi que les populations afro-américaines étaient pondérées d’un plus fort risque de récidive que les populations blanches. Inversement, les populations blanches ayant effectivement récidivées avaient été deux fois plus classifiées comme étant en risque faible que les populations afro-américaines. En d’autres termes, sans inclure l’ethnie des individus ou avoir été spécifiquement conçu pour traiter cette caractéristique, le croisement des données (dont le lieu de résidence) a indirectement surpondéré cet aspect au détriment d’autres facteurs sociaux individuels (éducation, emploi, parcours familial) et a conduit à influencer les juges avec des indicateurs proprement discriminatoires.

En reprenant du champ, on pourrait considérer que la problématique ainsi posée pour la matière pénale est singulière. Elle reste en réalité la même avec des affaires civiles, administratives ou commerciales : la nature de la matière contentieuse est en effet étrangère à la présence de biais dans la méthode et les données. Il serait intéressant par exemple d’examiner si, pour une série de prestations compensatoires dans lesquelles la situation maritale et économique est objectivement équivalente, les montants « prédits » par de tels algorithmes apparaissent pondérés différemment selon le lieu de résidence des parties. Dans la positive, quels critères, explicites ou sous-jacents, ont pu avoir une influence ? Sans explication ni transparence sur cet état de fait, cela revient à laisser une « boite noire » influer de manière tout à fait discrétionnaire sur l’issue d’un contentieux et à reproduire des inégalités.

3. Un formalisme mathématique fondateur d’une société gouvernée par les données

Des apprentissages automatiques n’ayant pas conscience de la complexité de la matière traitée (l’application de la loi et les phénomènes sociaux) risquent donc de créer plus de problèmes qu’ils prétendent apporter de solution. Loin de pouvoir offrir « une large collégialité et une indépendance davantage partagée[34] », ils sont susceptibles en réalité de cristalliser la jurisprudence autours de calculs biaisés n’étant représentatifs que d’eux-mêmes. Il est vrai qu’il semble difficile de se départir de la « troublante vocation » de certains systèmes computationnels : énoncer la vérité. Pour Eric Sadin, le numérique s’érigerait aujourd’hui comme « une puissance alèthéique, destinée à révéler l’alètheia, à savoir la vérité, dans le sens défini par la philosophie grecque antique, entendue comme la manifestation de la réalité des phénomènes à l’opposé des apparences[35] ».

Le grand emballement autour des potentialités, réelles ou fantasmées, de l’apprentissage automatique est donc hautement critiquable du fait de son manque patent de maturité mais, surtout, du fait de ce nouveau régime de vérité qu’il impose au mépris de ce qui devrait être un travail rigoureux d’analyse des résultats de ces outils, qui ne sont que le reflet imparfait et orienté d’une réalité qu’il s’agirait avant tout de tenter de décrire et de comprendre de manière pluridisciplinaire. Les efforts financiers et humains actuels des industries numériques se concentrent à bâtir hâtivement des cathédrales algorithmiques complexes dans l’espoir de lever, avant les autres concurrents entraînés dans la même course effrénée, des fonds avec une promesse : révéler une prétendue vérité naturelle et immanente en la saisissant dans les corrélations de l’apprentissage automatique. Or il s’agit de colosses dispendieux aux fondations extrêmement fragiles en ce qui concerne les décisions de justice : les systèmes juridiques restent très ouverts et un revirement peut invalider des décennies de patiente construction jurisprudentielle. Cette instabilité pose un problème bien fondamental à des algorithmes qui se construisent, avant tout, sur des statistiques d’événements passés.

L’on en vient à ce stade au principal argument des techno-évangélistes qui entendent alors faire taire toute critique de l’ancien monde : l’on ne pourrait (et l’on ne devrait) concevoir l’évolution de demain en restant figés dans nos référentiels actuels. Et il semble que l’on ne puisse pas leur donner entièrement tort, mais peut-être pas pour les raisons qu’ils envisagent. La transformation de fond réellement à l’œuvre, puisant dans un mélange surprenant d’idéologies néolibérales et libertarienne, est bien de substituer un référentiel à un autre : l’idée est de remplacer la règle de droit par d’autres mécanismes de régulation censés être plus efficaces pour assurer le fonctionnement de notre société. Et c’est bien là que réside le défi majeur de notre temps : l’IA n’est en réalité qu’un avatar, parmi d’autres, d’une ambition bien plus globale qui pose un défi démocratique sans précédent : une société gouvernée par les données (data driven society), se  substituant progressivement à l’Etat de droit que nous avons bâti ces derniers siècles.

La loi, bien qu’imparfaite, est avant tout l’expression collective d’un projet de société, miroir des priorités qu’un peuple souhaite se donner, et dont la valeur et l’intérêt sont discutées entre des représentants élus à même de composer un équilibre entre des intérêts contradictoires. L’IA, et les algorithmes en général, nous imposent, par un formalisme scientifique aux apparences neutres, une nouvelle rationalité qui est en réalité… celle de leurs concepteurs. En d’autres termes, la démocratie se retrouve confisquée par une nouvelle forme d’aristocratie, numérique, qui paraît se suffire à elle-même pour définir des notions aussi simples que le bien ou le mal[36]. Ce projet n’est au final pas très éloigné de celui de la physique sociale imaginé par Adolphe Quételet : le mathématicien belge du XIXème siècle envisageait l’homme comme libre mais il estimait que « ce qu’il apporte de perturbation dans les lois de la nature ne peut nullement altérer ces lois, du moins d’une manière permanente ». En posant ainsi les jalons d’une analyse systématique des phénomènes sociaux par la statistique, il ambitionnait de faire émerger un projet aux accents parfaitement totalitaires : l’élaboration d’une « statistique morale » glorifiant l’axe d’un homme moyen autour duquel tout homme aurait dû se référer.

Une lecture politique de la transformation numérique paraît donc aujourd’hui impérative afin de clarifier les réels défis posés par le numérique dans les débats publics et l’on comprend bien que ce ne sont pas les outils qui sont en cause mais bien ce que certains prétendent en faire. L’encadrement dès lors apparaît indispensable, qu’il s’agisse en premier temps de soft law ou de modes bien plus contraignants, à l’image du RGPD[37]. Cette construction devra toutefois s’effectuer consciente d’une autre réalité, tempérant peut-être l’urgence : l’écart qui existe encore entre les ambitions de l’IA dans le domaine de la justice et ses réalisations, très sectorielles et non généralisables, qui nécessitent des moyens humains de très haut niveau technique et des investissements financiers relativement substantiels. Meilleure alliée des discours idéologiques précédemment décrits, l’IA risque donc de se confronter plus rapidement que prévu à sa réelle rentabilité. Dans la deuxième édition de son rapport sur l’IA dans les entreprises, l’institut Deloitte révèle que les revenus issus de l’IA semblent extrêmement disparates en fonction des secteurs d’activité[38]. Si les entreprises technologiques pionnières semblent engranger d’importants bénéfices (plus de 20%), celles relevant des sciences naturelles et de la santé est bien plus modeste (13%). Sur le nouveau « marché du droit », la viabilité de modèles économiques reste encore hautement questionnable pour les investisseurs et les legaltech, qui ont obtenu des levées de fonds relativement considérables, devraient rester très attentives au contenu de leurs promesses… dont on pourrait prédire, au regard des présents développements, que certaines ont une assez forte probabilité de n’être jamais au rendez-vous-même en ouvrant le robinet de l’open data.


Retrouvez l’enregistrement vidéo de la 2ème séance du séminaire sur Youtube en cliquant ici.


Notes

[1] Cathy O’Neil, Weapons of Math Destruction, Crown, 2016.

[2] M. Chalabi, Weapons of Math Destruction: Cathy O’Neil adds up the damage of algorithms, The Guardian, 27 octobre 2016. https://www.theguardian.com/books/2016/oct/27/cathy-oneil-weapons-of-math-destruction-algorithms-big-data

[3] A ce titre les craintes de destructions de l’humanité par l’IA caractérisent assez bien cette forme d’alarmisme. Voir par exemple S. Hawking, S. Russel, M. Tegmark, F.Wilczek: ‘Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?’, The Independent,1 mai 2014 – https://www.independent.co.uk/news/science/stephen-hawking-transcendence-looks-at-the-implications-of-artificial-intelligence-but-are-we-taking-9313474.html

[4] Douglas Lenat, chercheur en intelligence artificielle et directeur de la société Cycorp

[5] Yann LeCun, Qu’est-ce que l’intelligence artificielle, Collège de France – Consulté sur le site du collège de France le 16 juin 2017 : https://www.college-de-france.fr/media/yann-lecun/UPL4485925235409209505_Intelligence_Artificielle______Y._LeCun.pdf

[6] Distinction notamment réalisée par John Searle dans les années 1980, où il différencie un système qui aurait un esprit (au sens philosophique) et pourrait produire de la pensée d’un système qui ne peut qu’agir (même s’il donne l’impression de pouvoir penser)

[7] Voir par exemple cet article de 20 minutes, qui relaie la communication d’une société éditrice de VeriPol sans aucune perspective critique : Espagne : la police utilise une intelligence artificielle pour débusquer les plaintes mensongères, 30 octobre 2018 – https://www.20minutes.fr/high-tech/2363327-20181030-espagne-police-utilise-intelligence-artificielle-debusquer-plaintes-mensongeres%E2%80%AC?fbclid=IwAR2SjlJxGdH0h0HosVCtCi3IZZcXl-zl6-tATip5axsfTnPWOcuw16zJ7OA

[8] Le théorème de Thomas Bayes, étendus par Pierre-Simon Laplace, date du XVIIIème  siècle ; les bases des réseaux neuronaux ont été développées dans les années 1940 par Warren McCulloch and Walter Pitts (Created a computational model for neural networks based on mathematics and algorithms called threshold logic, 1943)

[9] C. S. Calude, G. Longo, Le déluge des corrélations fallacieuses dans le big data, dans La toile que nous voulons – Le web néguentropique, B. Stiegler (dir.) : FYP éd., 2017, p. 156.

[10] S. Sermondadaz, Yann LeCun : L’intelligence artificielle a moins de sens commun qu’un rat, Sciences & Avenir, 24 janvier 2018 – https://www.sciencesetavenir.fr/high-tech/intelligence-artificielle/selon-yann-lecun-l-intelligence-artificielle-a-20-ans-pour-faire-ses-preuves_120121

[11] Voir par exemple AlphaGo Chronicles qui décrit la manière dont la société Deepmind est parvenue à entraîner une IA à battre le meilleur joueur humain de go en 2016. La conception d’un tel outil n’est pas résumée à la simple entrée de données dans un ordinateur, mais à justifier la mobilisation d’une équipe entière d’ingénieurs pour concevoir, tester et calibrer plusieurs couches différentes d’algorithmes. https://www.youtube.com/watch?v=8tq1C8spV_g

[12] L. Butterfield, Leading academics reveal: what are we getting wrong with AI?, Oxford University, 15 octobre 2018 – https://www.research.ox.ac.uk/Article/2018-10-15-leading-academics-reveal-what-are-we-getting-wrong-about-ai?fbclid=IwAR10KJv2UhcHPQQeKhDGJKL0XYsqpcs6Sev7HDLMvGRBuUTf6y7UQSkjZ5k

[13] P. Jensen, Pourquoi la société ne se laisse pas mettre en équation : Editions du Seuil, 2018.

[14] Y. Katz, Manufacturing an Artificial Intelligence Revolution, SSRN, 17 novembre 2017 https://ssrn.com/abstract=3078224 ou http://dx.doi.org/10.2139/ssrn.3078224

[15] Cet objectif justifie d’ailleurs l’intense lobbying opéré par les éditeurs juridiques et les legaltech sur l’ouverture totale des données judiciaires, prévue par les articles 20 et 21 de la loi pour une République numérique du 7 octobre 2016 et dont les décrets d’application restent à paraître.

[16] Sur la confusion entre corrélation et causalité, voir notamment D. Cardon, À quoi servent les algorithmes. Nos vies à l’heure des big data : Seuil, La république des idées, 2015.

[17] Les concepts ici présentés sont développés de manière plus substantielle dans Y. Meneceur,Quel avenir pour une justice prédictive : JCP G 2018, doctr.190.

[18] V. la célèbre figure du roman à la chaîne proposée par Ronald Dworkin (L’empire du droit, 1986, trad. française 1994 : PUF, coll. Recherches politiques, p. 251-252).

[19] Travaux sur un échantillon de 584 décisions de la Cour européenne des droits de l’Homme : N. Aletras, D. Tsarapatsanis, D. Preoţiuc-Pietro, V. Lampos, Predicting judicial decisions of the European Court of Human Rights : a Natural Language Processing perspective, 24 octobre 2016 – https://peerj.com/articles/cs-93/

[20] Précisions en ce sens que le taux de reproduction des décisions descend à 62% lorsque l’apprentissage se concentre sur la partie de raisonnement juridique d’application de la Convention (jeter une pièce en l’air offre approximativement 50% de tomber sur une face déterminée).

[21] C’est ce qu’a rappelé la Cour de cassation à propos des barèmes de pensions alimentaires (Cass. 1re civ., 23 oct. 2013, n° 12-25.301 : JurisData n° 2013-023208).

[22] Les concepts ici présentés ont également été développés plus longuement dans Y. Meneceur,Quel avenir pour une justice prédictive, op.cit.

[23] M. Benesty, L’impartialité des juges mise à mal par l’intelligence artificielle in Village de la justice, Tribunes et point de vue du 24 mars 2016 ; www.village-justice.com/articles/impartialite-certains-juges-mise,21760.html – le contenu du site Supralegem.fr n’est désormais plus accessible et l’adresse redirige vers dalloz.fr

[24] Mission d’étude et de préfiguration confiée au professeur Loïc Cadiet le 9 mai 2017 par le ministre de la Justice, dont les conclusions ont été rendues le 9 janvier 2018 ; www.justice.gouv.fr/publication/open_data_rapport.pdf (page consultée le 20 janvier 2018. – S’agissant des avocats, des problématiques singulières (possibilité de classement notamment) justifient également un certain nombre d’interrogations.

[25] Sur cette question, V. N. Regis, Juger, est-ce interpréter ? : Cahiers Philosophiques, Canopé éd., 2016, n° 147, p. 36-37.

[26] Voir le site internet Spurious Correlation qui recense un grand nombre de corrélations fallacieuses, tel qu’un taux de correspondance à plus de 99% entre 2000 et 2009 entre le nombre divorces dans l’Etat du Maine et la consommation de margarine par habitant – http://tylervigen.com/spurious-correlations

[27] É. Buat-Ménard et P. Giambiasi, La mémoire numérique des décisions judiciaires : D. 2017, p. 1483.

[28] Voir I. Daubechies, Machine Learning Works Great – Mathematicians Just Don’t Know Why, Wired, 12 décembre 2015 – https://www.wired.com/2015/12/machine-learning-works-greatmathematicians-just-dont-know-why/ 

[29] Dans cette logique, voir également la critique des statistiques infér entielles pour conclure sur le résultat d’un test statistique – R. Nuzzo, La malédiction de la valeur-p, Pour la Science, 10 janvier 2018.

[30] Ces développements sont approfondis dans Y. Meneceur, Les systèmes judiciaires européens à l’épreuve de l’intelligence artificielle, Revue de la prospective et de l’innovation, octobre 2018, pp11-16.

[31] Correctional Offender Management Profiling for Alternative Sanctions (Profilage des délinquants correctionnels pour des sanctions alternatives) est un algorithme développé par la société privée Equivant (ex-Northpointe) : http://www.equivant.com/solutions/inmate-classification.

[32] Practitioner’s Guide to COMPAS Core, Northpointe, 2015. http://www.northpointeinc.com/downloads/compas/Practitioners-Guide-COMPAS-Core-_031915.pdf

[33] L’étude et sa méthodologie est accessible en ligne : https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

[34] B. Louvel, Discours d’ouverture du colloque « La jurisprudence dans le mouvement de l’open data », 14 octobre 2016. https://www.courdecassation.fr/IMG///Open%20data,%20par%20B%20Louvel.pdf

[35] E. Sadin, Intelligence artificielle : résistons à la « main invisible automatisée », Le Monde, 22 février 2018.

[36] Le slogan de Google a été jusqu’en 2018 « don’t be evil » (il a été retiré depuis du code de bonne conduite de l’entreprise) ; Microsoft encourage les leaders mondiaux depuis la fin de l’année à la paix numérique (digital peace)

[37] Il ne sera pas développé ici la question de la régulation, voir à ce sujet Y. Meneceur, Les systèmes judiciaires européens à l’épreuve de l’intelligence artificielle, op.cit..

[38] Deloitte Insights, State of AI in the Enterprise, 2nd Edition, 22 octobre 2018. https://www2.deloitte.com/insights/us/en/focus/cognitive-technologies/state-of-ai-and-intelligent-automation-in-business-survey.html