L’IA convoquée pour lutter contre le coronavirus Covid-19

Crédits: NIH/Flickr

Article mis à jour le 25 mars 2020

Il n’aura pas fallu attendre longtemps pour que l’intelligence artificielle (IA) soit invitée à venir porter appui à la lutte contre la pandémie virale touchant le monde entier depuis le début de l’année 2020. La presse et les bloggers se font écho des grands espoirs reposant sur la science des données et l’IA pour affronter le coronavirus (D. Yakobovitch, How to fight the Coronavirus with AI and Data Science, Medium, 15 février 2020) et « remplir les vides » encore laissés par science (G. Ratnam, Can AI Fill in the Blanks About Coronavirus? Experts Think So, Government Technology, 17 mars 2020).

Il est toutefois surprenant que la Chine, premier épicentre de cette maladie et réputée pour son avancée technologique en la matière, ne paraisse pas avoir pu en tirer un avantage déterminant. Ses usages le plus efficaces semblent avoir plus concerné le contrôle des populations et les prévisions d’évolution des foyers de la maladie que la recherche pour l’élaboration d’un vaccin ou d’un traitement. Il y a bien sûr eu des applications de l’IA pour accélérer le séquençage du génome, effectuer des diagnostics plus rapides, réaliser des analyses par scanner ou plus ponctuellement recourir à des robots de maintenance et de livraison (A. Chun, In a time of coronavirus, China’s investment in AI is paying off in a big way, South China Morning post, 18 mars 2020), mais nous sommes loin des discours d’avant la crise où certains techno-évangélistes pensaient que cette technologie nous protègerait de tels événements planétaires. 

La manière dont est actuellement utilisée l’IA est donc assez révélatrice de ses atouts et de ses limites : efficace du fait de la puissance de ses capacités calculatoires avec de très grands jeux de données, elle ne semble pas encore pouvoir se substituer à l’expertise humaine pour concevoir un vaccin ou un traitement. Ses apports restent également indéniables pour organiser la connaissance et assister au contrôle des populations, voire appuyer les médecins pour un diagnostic, mais les événements paraissent conduire à une certaine modestie et révèlent surtout que les infrastructures sanitaires de certains pays ne sont pas scalables en temps de crise… et que ce n’est pas la technologie informatique seule (dont l’IA) qui est en mesure d’y apporter une solution.

La contribution de l’intelligence artificielle pour la recherche d’un traitement

La première application de l’IA attendue face à cette crise est certainement l’assistance aux chercheurs pour concevoir un vaccin, à même de protéger les soignants et d’endiguer la pandémie. Éloignons immédiatement l’idée d’une IA centrale à la création d’un tel traitement médical, puisque cette activité relève de la biomédecine et la recherche s’appuie sur de très nombreuses techniques parmi lesquelles les diverses applications de l’informatique et de la statistique ont déjà offert depuis bien longtemps des apports. 

Les prédictions de la structure du virus générées par l’IA pourraient toutefois faire gagner des mois d’expérimentation aux scientifiques. Notons en effet que l’IA semble déjà avoir apporté un appui notable, même s’il est limité du fait de règles dites « continues » et d’une combinatoire infinie, pour l’étude du repliement des protéines (voir à ce sujet O. Ezratty, Les conséquences pratiques d’AlphaGo Zero, Opinions Libres, 9 novembre 2017). La startup américaine Moderna à l’origine de l’un des premiers essais de vaccin s’est illustrée par sa maîtrise d’une biotechnologie fondée sur l’acide ribonucléique messager (messenger Ribonucleic acid – mRNA), qui aurait permis de réduire significativement le temps pour développer un prototype de vaccin testable sur l’homme et a probablement déployé ce type d’appui technologique (Moderna’s Work on a potential Vaccine against COVID-19). 

De même, le géant technologique chinois Baidu a publié en février 2020, en partenariat avec l’Université d’État de l’Oregon et l’Université de Rochester, son algorithme de prédiction Linearfold afin d’étudier le repliement des protéines. Cet algorithme est beaucoup plus rapide que les algorithmes traditionnels de repliement de l’acide ribonucléique (ARN) afin de prédire la structure de l’ARN secondaire d’un virus. Précisons que c’est ce type d’analyse relatif aux changements structurels secondaires entre les séquences de virus à ARN homologues (comme les chauves-souris et les humains) qui peut fournir aux scientifiques des informations supplémentaires sur la manière dont les virus se propagent. La structure secondaire de la séquence d’ARN du Covid-19 aurait ainsi été révélée par Linearfold en 27 secondes, au lieu de 55 minutes (Baidu, How Baidu is bringing AI to the fight against coronavirus, MIT Technology Review, 11 mars 2020). DeepMind, filiale de la société mère de Google, Alphabet, a également partagé ses prédictions sur la structure des protéines du coronavirus, avec son système d’IA AlphaFold (J. Jumper, K. Tunyasuvunakool, P. Kohli, D. Hassabis et al., Computational predictions of protein structures associated with COVID-19, DeepMind, 5 mars 2020). IBM, Amazon, Google et Microsoft ont également fourni la puissance de calculs de leurs serveurs aux autorités américaines pour pouvoir traiter les très grands jeux de données en matière d’épidémiologie, de bioinformatique et de modélisation moléculaire (F. Lardinois, IBM, Amazon, Google and Microsoft partner with White House to provide compute resources for COVID-19 research, Techcrunch, 22 mars 2020).

L’intelligence artificielle, moteur de partage de la connaissance

En pleine conscience des conséquences potentiellement catastrophiques pour les États-Unis, le Bureau des politiques scientifiques et technologiques de la Maison Blanche (Office of Science and Technology Policy) a rencontré pour sa part le 11 mars 2020 les entreprises technologiques et les groupes de recherche majeurs afin de déterminer comment les outils d’IA pourraient être utilisés pour, notamment, passer au crible les milliers d’articles de recherche publiés dans le monde sur la pandémie (A. Boyle, White House seeks the aid of tech titans to combat coronavirus and misinformation, GeekWire, 11 mars 2020). 

En effet, dès les semaines qui ont suivi l’apparition du nouveau coronavirus à Wuhan en Chine en décembre 2019, près de 2 000 articles de recherche ont été publiés sur les effets de ce nouveau virus, sur les traitements possibles, ainsi que sur la dynamique de la pandémie. Cet afflux de littérature scientifique témoigne naturellement de l’empressement des chercheurs à traiter cette crise sanitaire majeure, mais il représente également un réel défi pour quiconque espère en exploiter la substance. 

Microsoft Research, la National Library of Medicine et l’Allen Institute for AI (AI2) ont donc présenté leurs travaux le 16 mars 2020 qui ont consisté à rassembler et à préparer plus de 29 000 documents relatifs au nouveau virus et à la famille plus large des coronavirus, dont 13 000 ont été traités afin que les ordinateurs puissent lire les données sous-jacentes, ainsi que des informations sur les auteurs et leurs affiliations. Kaggle, filiale de Google et plateforme qui organise habituellement des concours de science des données (data science), a créé pour sa part des défis autour de 10 questions clés liées au coronavirus. Ces questions vont des facteurs de risque et des traitements non médicamenteux aux propriétés génétiques du virus en passant par les efforts de développement de vaccins. Le projet implique également l’initiative Chan Zuckerberg (du nom de Mark Zuckerberg, fondateur de Facebook, et de sa femme Priscilla Chan) et le Centre pour la sécurité et les technologies émergentes de l’université de Georgetown (W. Knight, Researchers Will Deploy AI to Better Understand Coronavirus, Wired, 17 mars 2020).

L’intelligence artificielle, observatrice et prédictrice de l’évolution de la pandémie

La société canadienne BlueDot est présentée comme ayant détecté le virus de manière précoce grâce à une IA, qui procède à l’examen continu de plus de 100 jeux de données, tels que les actualités, les ventes de billets d’avion, les données démographiques, les données climatiques et les populations animales. BlueDot a détecté une épidémie de pneumonie à Wuhan, en Chine, le 31 décembre 2019 et a identifié les villes qui risquaient le plus d’être confrontées à ce virus (C. Stieg, How this Canadian start-up spotted coronavirus before everyone else knew about it, CNBC, 3 mars 2020).

Une équipe de chercheurs travaillant avec le Boston Children’s Hospital a également mis au point une IA pour suivre la propagation du coronavirus. Appelé HealthMap, le système intègre des données provenant de recherches sur Google, de médias sociaux et de blogs, ainsi que des forums de discussion : des sources d’informations que les épidémiologistes n’utilisent généralement pas, mais qui sont utiles pour identifier les premiers signes d’une épidémie et évaluer la réaction du public (A. Johnson, How Artificial Intelligence is Aiding the fight Against Coronavirus, Datainnovation, 13 mars 2020).

Le Centre international de recherche sur l’intelligence artificielle (IRCAI) en Slovénie, placé sous l’égide de l’UNESCO, a lancé de son côté une veille médiatique « intelligente » sur le coronavirus appelée Corona Virus Media Watch qui fournit des mises à jour sur l’actualité mondiale et nationale en se basant sur une sélection de médias ayant des informations ouvertes en ligne. L’outil, conçu également avec l’appui de l’OCDE et la technologie d’extraction d’information Event Registry, est présenté comme une source d’information utile aux décideurs politiques, aux médias et au public pour observer les tendances émergentes liées au Covid-19 dans leur pays et dans le monde. 

L’intelligence artificielle, en assistance aux personnels soignants

Deux entreprises chinoises ont développé pour leur part un logiciel de diagnostic du coronavirus basé sur l’IA. La startup Infervision, basée à Pékin, a ainsi formé son logiciel à la détection des problèmes pulmonaires par tomodensitométrie (scanner). Utilisé à l’origine pour diagnostiquer le cancer du poumon, il peut également détecter les pneumonies associées à des maladies respiratoires comme le coronavirus. Au moins 34 hôpitaux chinois auraient utilisé cette technologie pour les aider à examiner 32 000 cas suspects (T. Simonite, Chinese Hospitals Deploy AI to Help Diagnose Covid-19, Wired, 26 février 2020). 

L’Alibaba DAMO Academy, branche de recherche de la société chinoise Alibaba, a également formé un système d’IA pour reconnaître les coronavirus avec une précision alléguée jusqu’à 96 %. Selon cette société, le système pourrait ainsi traiter les 300 à 400 scanners nécessaires pour diagnostiquer un coronavirus en 20 à 30 secondes, alors que la même opération prendrait habituellement entre 10 à 15 minutes à un médecin expérimenté. Ce système aurait aidé au moins 26 hôpitaux chinois à examiner plus de 30 000 cas (C. Li, How DAMO Academy’s AI System Detects Coronavirus Cases, Alizila, 10 mars 2020).

En Corée du Sud, l’IA aurait aidé à réduire à quelques semaines la conception de kits de dépistages basés sur la constitution génétique du virus, alors qu’il aurait fallu habituellement de deux à trois mois. La société de biotechnologie Seegene a ainsi utilisé son système de développement de tests automatisés pour mettre au point ce kit de dépistage et le distribuer largement. La réalisation de tests à grande échelle est en effet cruciale pour sortir des mesures de confinement et cette politique de tests paraît avoir contribué à la relative maîtrise de la pandémie dans ce pays, qui a équipé avec ce dispositif 118 établissements médicaux et testé plus de 230 000 personnes (I.Watson, S.Jeong, J.Hollingsworth, T.Booth, How this South Korean company created coronavirus test kits in three weeks, CNN World, 13 mars 2020).

L’intelligence artificielle, outil de contrôle de la population

L’exemple donné par Singapour pour maîtriser les risques épidémiques est certainement unique et difficilement exportable : délivrance d’un ordre de confinement pour les populations à risque, vérifications du respect des mesures par téléphone portable et géolocalisation, contrôles à domicile aléatoires. Et ce même modèle, basé sur une acceptation culturelle et sociale du contrôle, a également ses limites qui laissent craindre une augmentation des cas et rendre nécessaires l’adoption d’autres mesures (K. Vaswani, Coronavirus: The detectives racing to contain the virus in Singapore, BBC News, 19 mars 2020).

De manière plus générale, l’IA a été assez largement utilisée en appui de ce type de politiques de surveillance de masse. Ainsi, des dispositifs ont pu être utilisés pour mesurer la température et reconnaître les individus en Chine (M. Si, AI used in the battle against the novel coronavirus outbreak, China Daily, 6 février 2020) ou encore équiper les forces de l’ordre avec des casques « intelligents » dans la province du Sichuan, casques en mesure de signaler les individus avec une température corporelle élevée (High-tech helmets tackle temperature tasks, China Daily, 19 mars 2019). Les dispositifs de reconnaissance faciale ont toutefois connu des difficultés avec le port de masques chirurgicaux, ce qui a conduit une entreprise chinoise à tenter de contourner cette difficulté puisque nombre de services en Chine s’appuient désormais sur cette technologie, dont les services étatiques pour des mesures de surveillance. Hanvon allègue ainsi avoir créé un dispositif permettant d’augmenter le taux de reconnaissance des porteurs de masques chirurgicaux à 95% (M. Pollard, Even mask-wearers can be ID’d, China facial recognition firm says, Reuters, 9 mars 2020). La pandémie aura réussi à retrancher cette technologie dans ses limites de manière bien plus efficaces que les discours sur les droits fondamentaux…

En Israël, les premières étapes d’un plan visant à utiliser le suivi téléphonique individuel pour avertir les utilisateurs de ne pas côtoyer des personnes potentiellement porteuses du virus seraient en train d’être élaborées (A. Laurent, COVID-19 : des États utilisent la géolocalisation pour savoir qui respecte le confinement, Usebk & Rica, 20 mars 2020). En Corée du Sud, une alerte transférée aux autorités sanitaires se déclenche quand les personnes ne respectent pas la période d’isolement, en se rendant par exemple dans un lieu fréquenté comme les transports en commun ou un centre commercial (Ibid.). À Taïwan, un téléphone portable est remis aux personnes contaminées et enregistre leur position GPS pour que la police puisse suivre leurs déplacements et s’assurer qu’elles ne s’éloignent pas de leur lieu de confinement (Ibid.). En Italie, une entreprise a également développé une application sur téléphone intelligent (smartphone) permettant de reconstituer l’itinéraire d’un individu atteint du virus et d’avertir les personnes ayant eu un contact avec elle. D’après le concepteur, la vie privée serait garantie, car l’application ne révèlerait pas les numéros de téléphone ou des données personnelles (E. Tebano, Coronavirus, pronta la app italiana per tracciare i contagi: ‘Così possiamo fermare l’epidemia’, Corriere della Sera, 18 mars 2020). Reste à savoir si, dans ces temps justifiant des mesures extrêmement dérogatoires aux droits et libertés fondamentales, les intentions seront traduites d’effets. En Lombardie, les opérateurs téléphoniques ont mis à disposition les données concernant le passage d’un téléphone portable d’une borne téléphonique à une autre avec une certaine forme d’improvisation (M. Pennisi, Coronavirus, come funzionano il controllo delle celle e il tracciamento dei contagi. Il Garante: «Non bisogna improvvisare», Corriere della Sera, 20 mars 2020).

Aux États-Unis, l’on retrouve cette tension entre protection des intérêts individuels et collectifs. Ainsi, les GAFAM ont vraisemblablement trouvé l’occasion avec cette crise sanitaire d’améliorer leur image en fournissant, avec l’appui de l’IA, les moyens de traiter une masse considérable d’articles scientifiques (cf. supra). Mais ils disposent dans le même temps d’informations encore plus précieuses dont rêve tout décideur public dans cette période de crise sanitaire : une foule de données considérable sur la population américaine. Larry Brilliant, épidémiologiste et directeur exécutif du site Google.org, affirme ainsi pouvoir « changer le visage de la santé publique » et estime que « peu de choses dans la vie sont plus importantes que la question de savoir si les grandes technologies sont trop puissantes, mais une pandémie en fait sans aucun doute partie » (N. Scola, Big Tech faces a ‘Big Brother’ trap on coronavirus, POLITICO, 18 mars 2020).

Or tant après l’affaire Cambridge Analytica que Snowden, ces grandes entreprises technologiques ont surtout démontré pour l’instant une certaine incapacité à compartimenter l’emploi (ou le réemploi) des données dont elles disposent avec des finalités claires. Le gouvernement américain ayant demandé à ces entreprises d’avoir accès à des données agrégées et anonymes, notamment sur les téléphones portables, afin de lutter contre la propagation du virus (T. Romm, E. Dwoskin, C. Timberg, U.S. government, tech industry discussing ways to use smartphone location data to combat coronavirus, The Washington Post, 18 mars 2020), on comprend leur actuelle prudence au vu du risque juridique et du potentiel préjudice d’image (S. Overly, White House seeks Silicon Valley help battling coronavirus, POLITICO, 11 mars 2020). Relevons aussi que les entreprises qui seraient le plus à même de fournir des informations signifiantes, comme Google, Facebook ou Amazon, sont les mêmes qui se sont opposées sur tous les plans au gouvernement fédéral ces dernières années, qu’il s’agisse de vie privée, de concurrence ou de règles en matière de contenu. Une réglementation sur les données aurait vraisemblablement aidé à encadrer le dialogue entre le secteur public et privé, et à déterminer quels types d’urgences doivent faire primer l’intérêt collectif sur la protection des droits individuels (ainsi que les conditions et garanties d’un tel dispositif), mais le Congrès n’a toujours pas avancé depuis les deux dernières années sur une telle loi. L’urgence actuelle conduira peut-être à réaliser des avancées plus significatives, les crises majeures ayant parfois la particularité de nous renvoyer à notre condition et à l’essentiel.

Enfin, des tentatives de désinformation ont proliféré sur les réseaux sociaux et internet. Qu’il s’agisse du virus lui-même, de sa manière de se propager ou des moyens pour lutter contre ses effets, nombre de rumeurs se sont diffusées (“Fake news” et désinformation autour du coronavirus SARS-CoV2, INSERM, 19 février 2020). L’IA est une technologie déjà employée par les plateformes pour lutter contre diverses formes de désinformation et pourrait ici aussi jouer un rôle. L’UNICEF a adopté le 9 mars 2020 une déclaration sur la désinformation concernant le coronavirus dans laquelle elle entend prendre « activement des mesures pour fournir des informations précises sur le virus en travaillant avec l’Organisation mondiale de la santé, les autorités gouvernementales et des partenaires en ligne comme Facebook, Instagram, LinkedIn et TikTok, pour s’assurer que des informations et des conseils précis soient disponibles, ainsi qu’en prenant des mesures pour informer le public lorsque des informations inexactes apparaissent ». L’édiction au sein des Etats membres du Conseil de l’Europe des mesures restrictives pour éviter d’alimenter des inquiétudes dans la population est également envisagée. Le comité d’experts du Conseil de l’Europe sur l’environnement des médias et la réforme du Conseil de l’Europe (MSI-REF) a toutefois rappelé dans une déclaration du 21 mars 2020 que « la situation de crise ne doit pas servir de prétexte pour restreindre l’accès du public à l’information. Les États ne devraient pas non plus introduire de restrictions à la liberté des médias au-delà des limites autorisées par l’article 10 de la Convention européenne des droits de l’homme ». Le comité rappelle également que les « États membres, avec tous les acteurs des médias, devraient s’efforcer de garantir un environnement favorable à un journalisme de qualité ».

L’intelligence artificielle : un moyen ne devant pas conduire à éluder les difficultés structurelles des établissements de soins ni les droits fondamentaux

Les possibilités offertes par la technologie numérique, dont l’informatique et l’IA, s’avèrent donc être des instruments pertinents pour construire une réponse coordonnée contre cette pandémie. Les multiples usages illustrent également les limites des promesses et des possibilités de ces mêmes technologies, dont nous ne pouvons attendre qu’elles compensent des difficultés structurelles, comme celles que connaissent de nombreux établissements de soins dans le monde. Ceux-ci ont été taillés à la mesure d’une logique de fonctionnement fondé sur l’efficacité et le coût, et non sur leur mission qui devrait rester essentielle : un accès universel aux soins. 

Rappelons ainsi que l’article 11 de la Charte sociale européenne (ratifiée par 34 des 47 États membres du Conseil de l’Europe) édicte un droit à la protection de la santé qui engage les signataires « à prendre, soit directement, soit en coopération avec les organisations publiques et privées, des mesures appropriées tendant notamment : 1°) à éliminer, dans la mesure du possible, les causes d’une santé déficiente ; 2°)  à prévoir des services de consultation et d’éducation pour ce qui concerne l’amélioration de la santé et le développement du sens de la responsabilité individuelle en matière de santé ; 3°) à prévenir, dans la mesure du possible, les maladies épidémiques, endémiques et autres, ainsi que les accidents. »

Les mesures d’urgence prises, essentiellement restrictives de libertés ou de soutien aux entreprises, devraient donc pouvoir être suivies en sortie de crise par de nouvelles politiques publiques cessant de placer le numérique et l’IA comme l’instrument universel de réductions de coût et d’amélioration de l’efficacité. Restons également attentifs à ce que les mesures provisoires de suivi en masse de la population par les technologies ne deviennent pas banalisées et ne constituent pas notre nouveau quotidien (Yuval Noah Harari, Yuval Noah Harari: the world after coronavirus, The Financial Times, 20 mars 2020). Les standards en matière de protection des données, comme la Convention 108+ du Conseil de l’Europe, doivent pouvoir continuer à s’appliquer pleinement en toutes circonstances : qu’il s’agisse de l’utilisation de données biométriques, de la géolocalisation, de la reconnaissance faciale et de l’exploitation de données de santé, le déploiement d’applications en urgence doit pouvoir s’effectuer en concertation avec les autorités de protection des données et dans le respect de la dignité et de la vie privée des utilisateurs. Il devrait être considéré les possibles biais dans les divers types d’opérations de surveillance basés sur des données, qui sont susceptibles de créer d’importantes discriminations (A.F. Cahn, John Veiszlemlein, COVID-19 tracking data and surveillance risks are more dangerous than their rewards, NBC News, 19 mars 2020). Pensons également à la proposition de “dépistage pair-à-pair” émise par Joshua Bengio et Vargha Moayed consistant à une évaluation de la probabilité d’infection par une application mobile. Celle-ci reposerait notamment sur “une pression sociale pour télécharger l’application afin de pouvoir se déplacer librement à l’extérieur dans des endroits où se trouvent d’autres personnes”. Les auteurs ajoutent “Les gouvernements pourraient rendre obligatoire l’utilisation de l’application pour accéder à certains lieux accueillant un grand nombre de personnes, tels que les épiceries, les écoles et les universités” (V. Moayed, Y. Bengio, Dépistage pair à pair de la COVID-19 basé sur l’IA, Blog de Yoshua Bengio, 25 mars 2020). Outre la question de la fiabilité d’une telle évaluation et des discriminations inévitablement produites, se pose la question plus fondamentale du “solutionnisme” de la proposition. Il peut sembler surprenant de proposer une solution technologique, à laquelle tout le monde n’aura d’ailleurs pas accès, pour régler ce qui est avant tout un problème de moyens. Ne vaudrait-il mieux pas en effet diriger l’argent que coûterait une telle solution pour permettre aux systèmes de santé de répondre à leur mission première : permettre à chacun d’accéder à des soins de qualité.

Ces mêmes technologies peuvent s’avérer en revanche de précieux alliés de politiques systémiques et globales, replaçant la mission des services publics au cœur d’un projet de société sans frontières, réellement centré sur le progrès humain, dont les piliers incontestables sont les droits de l’homme, la démocratie et l’État de droit.

Entretien avec l’Echo des Arènes

A la suite du colloque “Un monde judiciaire augmenté par l’intelligence artificielle ?“, organisé par l’Institut PRESAJE le 25 juin 2019 à la Cour de cassation, retrouvez un entretien donné à l’Echo des Arènes en octobre 2019 sous le titre “Le Conseil de l’Europe en première ligne sur les impacts de l’IA sur la justice et la démocratie“.

Entretien avec l’Echo des Arènes

Deux extraits de ce colloque ont été publiés durant l’été 2019 dans les cartes postales des Temps Electriques.

L’open data des décisions de justice : un nouveau mode de publication des décisions

La définition de la signification et de la portée de l’open data des décisions de justice semble encore devoir être clarifiée, même si deux régimes distincts se dégagent de la loi de programmation et de réforme de la justice sur la base d’un critère de fréquence. Ajouter la finalité de la demande pour affiner cette clé de distinction permettrait d’écarter l’instrumentalisation de la publicité aux fins de constituer des fonds jurisprudentiels, action qui relève… de la notion de publication des décisions.


Dans le prolongement de la loi du 23 mars 2019 de programmation 2018-2022 et de réforme pour la justice[1]qui limite dans certaines hypothèses la mise à disposition électronique des décisions de justice avec le nom des magistrats, une étude de l’IFOP de juin 2019 révèlerait que 87 % des avocats seraient opposés à l’anonymisation des décisions de justice, notamment chez les 60 ans et plus (94%), ceux qui exercent en individuel (92%), les indépendants (92%) et les avocats travaillant dans le droit pénal (94%)[2]. Vu de l’étranger[3], même incompréhension de ces nouvelles dispositions, où les peines de 5 ans d’emprisonnement et 300 000 euros d’amende[4]encourues par toute personne opérant au « profilage » de juges[5], sont perçues comme « unique au monde » et à contrecourant d’un large mouvement de transparence de la vie publique, traduites par les politiques d’open data[6]. En France, une lettre co-signée par des associations de chercheurs a été adressée au Conseil Constitutionnel pour s’émouvoir des craintes d’entraves pour « les recherches sur le fonctionnement, les activités et les décisions des juridictions administrative et judiciaire[7]. » La décision même du Conseil constitutionnel n°2019-778 DC du 21 mars 2019[8], faisant suite à quatre saisines parlementaires pour effectuer un contrôle a priori de constitutionnalité de cette loi a pu être interprétée quelque peu hâtivement par certains commentateurs[9]comme un blanc-seing délivré aux legaltech pour aller puiser directement dans le gisement des données judiciaires des juridictions en revendiquant par exemple « la consécration par le Conseil constitutionnel du principe de la publicité de la justice ».

Un principe de publicité des décisions de justice consacré depuis longtemps, un principe de publication à qualifier

Or, commençons simplement par rappeler que la loi de programmation et de réforme de la justice n’a pas remis en cause les accès existants aux noms des professionnels dans les décisions de justice et ne fait qu’ajouter un nouveau mode de délivrance. De même, il n’y a rien de réellement nouveau en ce qui concerne le principe de publicité, celui étant consacré depuis bien longtemps dans notre droit positif, pour le trouver notamment dans l’article 6 § 1 de la Convention EDH et l’article 11-3 de la loi n° 72-626 du 5 juillet 1972 instituant un juge de l’exécution et relative à la réforme de la procédure civile. L’obligation posée par ce principe est satisfaite par l’accès « physique » de tout citoyen à la salle d’audience lors des débats et du prononcé de la décision, sauf exception justifiée compte tenu de la matière ou de circonstances particulières au procès. Relevons que l’obligation de prononcé public de la décision est aussi satisfaite par l’inscription du jugement au greffe du tribunal et sa parution dans les recueils officiels[10]. Ce principe de publicité vient répondre à des préoccupations tout à fait fondamentales, caractérisant ce que devrait être tout procès équitable dans un État de droit : la justice étant rendue au nom du peuple, il doit être permis à tout citoyen de constater par lui-même du respect des formalités substantielles caractérisant un tribunal (juridiction valablement constituée, règles procédurales respectées). L’accès d’un tiers à la décision est à concevoir dans ce cadre précis de manière ponctuelle et unitaire, comme un droit de regard sur toute procédure, le laissant notamment libre d’une intervention s’il y estime y avoir un intérêt. L’extension du mode de délivrance des décisions de justice à un format électronique ne peut donc que faciliter cette publicité.

Mais attention de ne pas l’assimiler à l’open data, qui est à entendre comme une forme élargie de publication des décisions de justice, cette dernière étant caractérisée par une possibilité d’accès systématique à tout ou partie du patrimoine jurisprudentiel, pour une finalité bien spécifique : la mise en relief du fond juridique de son contenu. Le terme d’open data des décisions de justice devrait être donc être strictement réservé pour qualifier précisément une nouvelle forme d’accès à titre non onéreux à une base de données consolidée d’un très grand ensemble des décisions de justice, accès concédé par une licence décrivant les conditions exactes de réutilisation des données. Forme élargie de publication qui devrait d’ailleurs être, par défaut et compte des enjeux spécifiques des décisions judiciaires par rapport à des documents administratifs, totalement pseudonymisée tout en autorisant, en fonction d’accords au gré à gré avec la recherche universitaire ou des opérateurs privés, l’accès à des flux intègres pour des finalités clairement déterminées.

Une distinction malheureusement encore en filigrane, favorisant la « stratégie du pirate »

Le Conseil constitutionnel, dans les paragraphes 96 et suivants de sa décision du 21 mars 2019, n’est pas allé aussi loin dans la clarification des finalités et s’est attaché à prévenir le transfert de la charge de la pseudonymisation sur l’ensemble des tribunaux en invoquant le principe de bonne administration de la justice. Il reconnaît ainsi la conformité des dispositions qui restreignent toute collecte systématique dans les juridictions sous le couvert de la publicité des décisions, en n’invalidant pas les restrictions posées par le législateur en cas de « demandes abusives, en particulier par leur nombre ou par leur caractère répétitif ou systématique[11]. »

La circulaire du 19 décembre 2018[12]et la note du ministère de la justice du 4 juin 2019 relative au traitement des demandes de copies de décisions judiciaires émanant de tiers à l’instance ne clarifient pas plus les concepts même si elles opèrent une distinction entre demande isolée et demandes de masse et conduisent, de fait, à définir deux régimes distincts sur un critère quantitatif. La décision de la cour d’appel Douai du 21 janvier 2019[13]ne procède pas à une analyse différente puisqu’elle a répondu favorablement à la demande d’unelegaltechen présence d’une « demande isolée ». Quant à la décision de la cour d’appel de Paris du 18 décembre 2018[14], qui s’était positionnée en faveur d’une mise à disposition de l’intégralité du répertoire des affaires civiles du tribunal de grande instance de Paris au format numérique, celle-ci a été rétractée par un nouvel arrêt de la même juridiction le 25 juin 2019 aux motifs que la demande formulée devait être analysée comme « une demande d’accès à des décisions de justice a titre gratuit sous forme électronique gouvernée par l’article L. 111-13 du COJ, correspondant à la mise en œuvre de l’open data[15] » et non une simple demande de tiers sollicitant l’accès à des décisions de justice.

Pour un égal accès de tous les opérateurs au patrimoine jurisprudentiel

Il semble impératif de pouvoir maintenant assurer un accès égal à tous les opérateurs dans un contexte où certains semblent parfois tout mélanger pour arriver à leurs fins, au mépris d’évidences, des textes eux-mêmes ou de ce que l’on pensait être de solides acquis. Delphine Iweins et Déborah Loye caractérisent dans « les Echos » ce comportement comme une « stratégie du pirate » qui « consiste à s’établir puis à miser sur le lobbying pour ajuster la réglementation », en s’interrogeant si c’est aujourd’hui une voie nécessaire à l’innovation plutôt que de « travailler main dans la main avec les acteurs établis, au risque de mourir d’épuisement à cause de leur inertie[16]. » Rien de nouveau quand l’on pense à certains prestataires de services qui ont employé les mêmes techniques dans d’autres secteurs (véhicules avec chauffeurs, livraison de repas, trottinettes électriques par exemple) pour conquérir des marchés en instrumentalisant un discours d’intérêt général. Mais, là encore, il convient de faire la part des choses et de ne pas ignorer que ce souffle de « disruption » est avant tout motivé par la défense d’intérêts particuliers imposant de convaincre d’une viabilité sans cesse renouvelée pour lever des fonds tous les 18 mois. 

Cette stratégie de vitesse a un prix et se confronte inévitablement aux conséquences de ses propres pratiques. Une legaltech française vient ainsi de faire l’objet d’une plainte qui a été déposée le 14 juin 2019 par le Conseil national des barreaux (CNB) et le barreau de Paris auprès du procureur de la République de Paris. Les plaignants allèguent 6 infractions : usurpation du titre d’avocat, escroquerie, vol simple et accès et maintien frauduleux dans un système informatique, usurpation d’identité, recel et traitement automatisé d’informations nominatives sans déclaration préalable à la Commission nationale de l’informatique et des libertés (CNIL)[17].


[1]Art.33 de la loi n° 2019-222 du 23 mars 2019 de programmation 2018-2022 et de réforme pour la justice : https://www.legifrance.gouv.fr/eli/loi/2019/3/23/JUST1806695L/jo/texte

[2]T. Coustet, 87% des avocats opposés à l’anonymisation des décisions de justice, Dalloz Actualités, 13 juin 2019 (étude IFOP pour la legaltech Doctrine) : https://www.dalloz-actualite.fr/flash/87-des-avocats-opposes-l-anonymisation-des-decisions-de-justice?utm_source=dlvr.it&utm_medium=twitter#.XQJq4_ZuJaR

[3]France Bans Judge Analytics, 5 Years In Prison For Rule Breakers, Artificial Lawyer, 4 juin 2019 : https://www.artificiallawyer.com/2019/06/04/france-bans-judge-analytics-5-years-in-prison-for-rule-breakers/ou encore M. Langford, M. Rask Madsen, France Criminalises Research on Judges, Verfassungsblogon matters constitutional, 22 juin 2019 : https://verfassungsblog.de/france-criminalises-research-on-judges/

[4]Alignant cette infraction sur le régime des peines prévues par les articles 226-18, 226-24 et 226-31 du code pénal, spécifiques à la collecte des données à caractère personnel par un moyen frauduleux, déloyal ou illicite

[5]Le texte de l’article « Les données d’identité des magistrats et des membres du greffe ne peuvent faire l’objet d’une réutilisation ayant pour objet ou pour effet d’évaluer, d’analyser, de comparer ou de prédire leurs pratiques professionnelles réelles ou supposées »

[6]Voir notamment les travaux de l’organisation multilatérale Open Government Partnershipà laquelle adhère la France : https://www.opengovpartnership.org/

[7]Des risques de la Loi de programmation 2018-2022 : lettre au Conseil constitutionnel, co-signée par l’association française de sociologie (AFS), l’association des historiens contemporéanistes de l’enseignement supérieur et de la recherche (AHCESR), l’association française de science politique (AFSP), Annette Wieviorka, Directrice de recherche émérite (CNRS) et Thomas Perroud, professeur de droit public à l’Université Panthéon-Assas — CERSA : https://afs-socio.fr/des-risques-de-la-loi-de-programmation-2018-2022-lettre-au-conseil-constitutionnel/

[8]Décision du Conseil constitutionnel n°2019-778 DC du 21 mars 2019 : https://www.conseil-constitutionnel.fr/decision/2019/2019778DC.htm

[9]Voir B. Cassar, Reconnaissance constitutionnelle de la transformation numérique du monde juridique : de l’open data aux LegalTech, Actualité du droit, Wolters Kluer, 27 mars 2019 ou Doctrine salue la consécration par le Conseil constitutionnel du principe de publicité de la justice, 22 mars 2019, site internet Doctrine.fr

[10]CEDH, 22 fév. 1984, n°8209/78, Sutter c. Suisseet art.451, 1016, 1440 CPC

[11]Art. L111-14 COJ

[12]Circ., 19 déc. 2018, NOR : JUSB1833465N, relative à la communication de décisions judiciaires civiles et pénales aux tiers à l’instance

[13]CA Douai, 21 janv. 2019, n°18/06657

[14]CA Paris, pôle 2, chambre 1, 18 déc. 2018, n°17/22211

[15]CA Paris, pôle 2, chambre 1, 25 juin 2019, n°19/04407

[16]D. Iweins, D. Loye, La guerre s’intensifie entre Doctrine et les avocats, Les Échos entrepreneurs, 27 juin 2019.

[17]Des avocats reprochent à l’une de ces legaltech un fichage compilant toutes les décisions de justice dans lequel leurs noms apparaît, avec le nom de leurs clients, même ceux dont la procédure est toujours en cours. Ce qui explique également la résolution du CNB du 15 juin 2019 visant à bénéficier des mêmes garanties que les magistrats et les fonctionnaires de greffe.

Les Temps Electriques, ce n’est pas fini !

Pas d’émissions en mai ni juin ? Pas d’inquiétude, l’équipe des Temps Electriques s’est accordée une petite pause, bien méritée, mais vous prépare de nouveaux thèmes pour la rentrée.

Nous vous proposerons une saison 2 pour tenter de continuer à comprendre ensemble quel est déjà l’impact numérique sur le droit et la justice, avec quelques pistes nouvelles de format et de contenu.

Nous tâcherons durant l’été de vous envoyer quelques cartes postales pour que vous ne nous oubliez pas… restez branchés !

L’équipe des Temps Electriques

Pourquoi la justice résiste-t-elle aux algorithmes ?

Texte et vidéo du TEDx Issy-les-Moulineaux “Retour au local”
22 novembre 2018 (Issy-les-Moulineaux)

Séquence 1 | La résistance des tribunaux au changement : une idée à modérer 

Les magistrats ne sont pas résistants culturellement au numérique : nombre de juges, procureurs et greffiers sont sur les réseaux sociaux ; certains développent même des applications !

La justice n’a pas été en retard pour intégrer l’informatique : dès les années 80 le Casier judiciaire a été informatisé ; le problème c’est que certains des outils sont devenus obsolètes…

ALORS OUI, il y aurait une urgence à se saisir dès aujourd’hui des derniers développements technologiques comme l’IA pour contribuer à combler le fossé entre les citoyens et la justice (constat d’un déficit de confiance entre eux et la justice, le temps et l’aléa sont devenus inacceptables) afin d’offrir des services en accord avec notre temps

Comment passer de l’incantation à la réalité, en ne piétinant pas certains principes fondamentaux : Et si au lieu de tenter construire des cathédrales numériques (des gros systèmes) l’idée d’un retour à un dialogue de proximité, local était une solution ? Avant d’énoncer une solution, analysons la situation – spécifiquement avec de l’IA !


Séquence 2 | Une des possibles raisons de la résistance des juges à l’IA ?

Une hypothèse : et si ce n’était du corporatisme ? A moins que le formalisme mathématique ne soit pas suffisant pour modéliser de manière rigoureuse le raisonnement judiciaire ?

Ce que l’on appelle aujourd’hui IA n’est qu’une grosse machine qui fait des modèles mathématiques et statistiques : l’IA de Terminator n’est pas prête d’exister, les développements d’aujourd’hui (machine learning) sont une représentation statistique d’un environnement donné

Cela marche bien dans un environnement fermé avec des choses quantifiables physiquement : on peut construire une prévision du nombre possible du nombre de vente de crèmes glacées en fonction de la  température de l’air

Mais il est plus difficile de trouver des constantes dans les phénomènes sociaux : moins de stabilité dans les relations sociales que dans les phénomènes physiques (Jensen) – il en est de même quand il faut traiter des conflits

  • C’est le mirage de la justice prédictive et le danger du « solutionnisme » (Morozov) c’est-à-dire croire que le numérique peut tout résoudre
  • Risque des biais (raciaux – par exemple aux États-Unis avec COMPAS)

Alors on jette tout et on n’en fait rien ? Ce serait une erreur !


Séquence 3 | Une possible solution ? Réinventer la justice par le numérique via une construction pluridisciplinaire en revenant… au local

Comprendre les phénomènes sociaux exigent une approche pluridisciplinaire au plus près des citoyens : exemple de la méthode de la déclaration de Montréal pour associer les citoyens à la définition de valeurs à protéger ou à promouvoir en organisant des ateliers dans des bibliothèques

Ouvrons les portes à un travail agile entre différents métiers, afin de bâtir des applications Human rights by design : c’est ce que souhaite défendre comme vision le Conseil de l’Europe dans sa politique de régulation de l’IA

En n’oubliant pas un enjeu spécifique à la justice, mais les professionnels du droit vous le rappellerons : conserver la symbolique même si l’on est à l’ère numérique. Le procès est un rite de passage de la conflictualité à l’apaisement, avec l’autorité de la société dans son ensemble – nécessite parfois du temps… et ne pas confondre aléa avec personnalisation.


Conclusion : Créer de la confiance entre la justice et les citoyens passera par des technologies numériques qui ont pleine conscience des enjeux particuliers locaux

Prenons l’exemple du laboratoire de Cyberjustice de Montréal : résultats remarquables en attirant les meilleurs talents venant du droit, des sciences sociales, du numérique. Pourquoi pas un laboratoire français voire européen, travaillant au plus près des besoins des citoyens ? Et des professions ?

Et si le service public se donnait les moyens de Hacker les hackers ! Se saisir des méthodes, de l’adaptabilité, de l’ouverture d’esprit ? C’est dans la proximité que nous devrions envisager l’avenir d’une justice numérique que nous nous devons d’inventer ensemble !


Retrouvez l’enregistrement vidéo sur Youtube en cliquant ici.

2019, année de l’âge de raison pour l’intelligence artificielle ?

Le Comité des ministres du Conseil de l’Europe, organe exécutif de l’organisation internationale regroupant 47 États du continent européen, a adopté le 13 février 2019 une Déclaration dense, mais explicite, sur « les capacités de manipulation des processus algorithmiques »[1].

C’est la première fois qu’une organisation avec une telle autorité morale se positionne aussi explicitement sur les conséquences de la transformation numérique de notre société en soulignant « Les niveaux très subtils, subconscients et personnalisés de la persuasion algorithmique [qui] peuvent avoir des effets significatifs sur l’autonomie cognitive des citoyens et leur droit à se forger une opinion et à prendre des décisions indépendantes. »

La portée de cette Déclaration dépasse la seule question des interférences électorales telles que dénoncées par le scandale « Cambridge Analytica » et le réemploi de données personnelles pour tenter d’infléchir le cours de processus électoraux. Le Comité des Ministres « attire l’attention sur la menace grandissante qui émane des technologies numériques de pointe et qui remet en cause le droit des êtres humains à se forger une opinion et à prendre des décisions indépendamment des systèmes automatisés. »

C’est exactement ce qui était dénoncé par de nombreux auteurs (Cathy O’Neil, Soshana Zuboff, Antoinette Rouvroy, Dominique Cardon, Eric Sadin pour ne citer qu’eux) ces dernières années, sans que leurs critiques ne parviennent réellement à prendre corps dans le champ des politiques publiques. Bien au contraire, le grand renfort des plans de développement de l’intelligence artificielle (IA) un peu partout dans le monde, spécialement dans une Europe qui cherche à combler son retard par rapport à l’Amérique du Nord et à l’Asie, témoignait d’une vision assez décomplexée et dépolitisée du sujet. Pekka Ala-Pietilä, président du groupe d’expert de haut niveau de la Commission européenne, en charge de diriger la rédaction de lignes directrices éthiques de l’IA pour les 27/28 membres de l’Union européenne, s’était même déclaré il y a quelques mois hostile à la mise en œuvre d’une réglementation dans l’immédiat[2].

Cette Déclaration du Comité des ministres n’est pas la première expression d’une certaine réserve du Conseil de l’Europe, et des milieux académiques qui sont le principal vivier d’expertise de l’organisation. Le comité d’experts sur les intermédiaires internet (MSI-NET), la Commission européenne pour l’efficacité de la justice (CEPEJ), le Comité consultatif de la Convention 108 (protection des données), la Commission européenne contre le racisme et l’intolérance (ECRI), autant de secteurs qui ont déjà produits des études ou rapports alertant sur la surenchère – très artificielle – de l’industrie numérique pour promouvoir l’IA et les risques d’un développement sans conscience des limites des mathématiques et des statistiques pour représenter notre monde[3].

Un terrible constat a été d’ailleurs dressé par John Naughton en ce début d’année 2019 dans le Guardian : les journalistes n’arriveraient à prendre aucune distance critique avec les discours imposés par l’industrie numérique au sujet de l’IA et peineraient donc à réaliser un travail documenté, critique et approfondi[4]. Il cite au soutien de son affirmation les résultats d’une enquête menée par des chercheurs de l’université d’Oxford, qui ont analysé plus de 760 articles portant sur l’IA, publiés dans les 6 journaux majeurs du Royaume-Uni durant les 8 premiers mois de l’année 2018. Leurs travaux révèlent que cette couverture a été très largement dominée par les industriels eux-mêmes (nouveaux produits, annonces et initiatives prétendument liées à de l’IA) avec la complicité bien involontaire d’une certaine forme de « journalisme de masse », qui a de moins en moins de spécialistes[5]. Une couverture qui présente bien entendu très majoritairement l’IA comme une solution viable pour résoudre un grand nombre de problèmes. 

Or, il y a un véritable enjeu à sortir de la sorte de sidération collective sur ces développements technologiques, en faisant la part entre ce qui relève d’une gigantesque opération marketing de l’industrie numérique (et non d’une révolution en recherche fondamentale) des applications concrètes du traitement statistique de très grands jeux de données (big data). Bien entendu, il ne s’agit pas de sous-estimer les progrès réalisés avec l’apprentissage automatique dans des domaines extrêmement spécialisés, mais certainement pas d’ériger cette prétendue « IA », et le numérique en général, comme une solution universelle à tous nos maux[6]. C’est ce type de contre-discours qui imposerait aux entrepreneurs un vocabulaire précis et, peut-être, les conduirait à mieux assumer pour certains leur responsabilité sociétale en ne pas se hâtant pas de transformer dans la précipitation des résultats de recherche en application commerciale. Et c’est exactement ce à quoi semble vouloir s’employer le Conseil de l’Europe et peut constituer, en cette année 2019, un véritable tournant dans la promotion, parfois outrancière, de cette technologie.


[1]Decl(13/02/2019)1

[2]J. Delcker, « Europe’AI ethics chief : No rules yet, please”, Politico, 30 octobre 2018, https://www.politico.eu/article/pekka-ala-pietila-artificial-intelligence-europe-shouldnt-rush-to-regulate-ai-says-top-ethics-adviser/

[3]Voir le site internet du Conseil de l’Europe dédié à l’intelligence artificielle : http://www.coe.int/ai

[4]J. Naughton, Don’t believe the hype: the media are unwittingly selling us an AI fantasy, The Guardian, 13 janvier 2019.

[5]J. Scott Brennen, An Industry-Led Debate: How UK Media Cover Artificial Intelligence, University of Oxford, Reuters Institute for Study of Journalism, 13 décembre 2018.

[6]E. Morozov, Pour tout résoudre, cliquez ici, Fyp éditions, 2014.

Pourquoi la justice résiste-t-elle aux mathématiques ?

Texte et vidéo de la 2ème séance du séminaire  de l’IHEJ “Droit et mathématiques”
8 novembre 2018 (ENM Paris)

Retrouvez l’enregistrement vidéo de la 2ème séance du séminaire sur Youtube en cliquant ici.


 « Tout ce qui est neuf n’est pas nécessairement nouveau ». Cette pensée, prêtée à Paul Ricœur, semble parfaitement pouvoir tempérer les derniers développements de la transformation numérique que nous vivons, dont les tentatives de traiter des décisions de justice avec le formalisme mathématique à des fins prédictives. L’on connaît pourtant déjà bien les limites des tentatives de description des phénomènes sociaux par des équations : mais l’enchantement collectif opéré par le seul énoncé du terme, vague et marketing, d’« intelligence artificielle » (IA) semble avoir parfaitement occulté la réalité concrète de la technologie sous-jacente de cette dernière mode. L’apprentissage automatique (machine learning) et ses dérivés ne sont en fait qu’une manière de créer de l’information en donnant du sens à des données par diverses méthodes statistiques bien connues (comme la régression linéaire).

Dans ce contexte de confusion assez généralisée, les mathématiques seraient devenues pour Cathy O’Neil, scientifique des données (data scientist), une nouvelle « arme de destruction massive » car, malgré leur apparente neutralité, elles serviraient à des calculs algorithmiques si denses qu’il serait difficile, voire impossible, de rendre transparent les choix parfois arbitraires de leurs concepteurs[1]. Leur utilisation décomplexée serait même susceptible de renforcer de manière inédite les discriminations et les inégalités en « utilisant les peurs des personnes et leur confiance dans les mathématiques pour les empêcher de poser des questions[2] ».

Le constat ainsi posé est pertinent : ne devons-nous pas traiter prioritairement des questions de la difficulté à utiliser ce formalisme pour décrire les phénomènes sociaux et des changements profonds de gouvernance induits au lieu de spéculer de manière stérile sur des risques relevant de la pure science-fiction, notamment en ce qui concerne l’IA[3] ? Il y a donc un effort de définition à réaliser avant toute tentative d’analyse car sans vocabulaire clair, l’on ne peut construire de pensée claire (1). Appliqué aux décisions de justice, les modèles mathématiques peinent à rendre compte de l’entière réalité qu’ils prétendent décrire et ne peuvent se prêter qu’imparfaitement à des finalités prédictives ou actuarielles (2). La critique de la commercialisation hâtive de solutions d’IA aux potentialités parfois surévaluées risque par ailleurs de troubler la compréhension des réels enjeux de transformation numérique qui se jouent pourtant devant nos yeux (3).

1. Un formalisme mathématique performant pour des tâches très spécialisées

La croissance exponentielle de l’efficacité du traitement informatique des données depuis 2010 est totalement à distinguer des progrès considérables restant à réaliser par la recherche fondamentale pour parvenir à modéliser une intelligence aussi agile que l’intelligence humaine. Certains avaient cru pouvoir réduire celle-ci à « 10 millions de règles[4]  » : des chercheurs comme Yann LeCun affirment aujourd’hui que l’IA se heurte en réalité à une bonne représentation du monde, qui est une question « fondamentale scientifique et mathématique, pas une question de technologie[5] ». Une dichotomie est donc parfois réalisée entre l’« IA forte » de science-fiction (généraliste, auto-apprenante et adaptable de manière autonome à des contextes tout à fait différents), et les IA « faibles » ou « modérées » actuelles, ultra-spécialisées et non-adaptables de manière totalement autonome à des changements complets de paradigme[6]. Cette distinction ne clarifie toutefois pas ce que l’on entend par « intelligence » et alimente nombre de malentendus et de fantasmes, entretenus et véhiculés par les médias, qui ne parviennent pas toujours à décrypter les discours commerciaux et à vulgariser des concepts en jeu[7].

Commençons par rappeler que les mécanismes actuellement mis en œuvre sous le terme très plastique « d’IA » sont pluriels et connus pour la plupart de longue date[8]. Ce qui est nouveau, en revanche, c’est leur synergie avec d’autres technologies (blockchains, biotechnologies, nanotechnologies, sciences cognitives) ainsi que leur efficacité de traitement rendues possibles par la performance des processeurs actuels (notamment des cartes graphiques, à même d’exécuter avec performances des méthodes dites d’apprentissage, nous y reviendrons) et la disponibilité d’une quantité considérable de données (big data) depuis quelques années.

Pour être plus précis, l’apprentissage automatique (sous ses diverses formes) a contourné de manière extrêmement astucieuse les limites des anciens systèmes experts, qui exigeaient de programmer a priori des règles logiques de traitement de données pour imiter un raisonnement. Les approches actuelles sont plus inductives : l’idée est de réunir un nombre suffisant de données d’entrée et de résultats attendus en sortie afin de rechercher de manière (plus ou moins) automatisée les règles pouvant les lier. En d’autres termes, cette recherche automatisée (qui est ce que l’on entend par apprentissage) est une représentation mathématique et statistique d’un environnement donné. L’objectif pour les ingénieurs n’est pas prioritairement de comprendre les règles ou les modèles automatiquement construits par l’ordinateur mais de s’assurer que la machine arrive à reproduire de mieux en mieux les résultats attendus, si nécessaire avec toujours plus de données par des phases successives ou continues de recherche.

Pour reformuler les concepts esquissés :

•           l’IA n’est pas un objet unique et homogène : il s’agit en réalité d’une discipline très large aux contours mouvants, assemblage de sciences et techniques (mathématiques, statistiques, probabilités, neurobiologie, informatique) ; le terme, auparavant confondu avec « systèmes experts », est maintenant généralement confondu avec l’apprentissage automatique (machine learning), dont il est principalement question dans la plupart des développements commerciaux actuels ;

•           l’apprentissage automatique fonctionne par une approche inductive très différente de la cognition humaine : l’idée est d’associer de manière plus ou moins automatisée un ensemble d’observations (entrées) à un ensemble de résultats possibles (sorties) à l’aide de diverses propriétés préconfigurées afin de détecter des corrélations (susceptibles d’ailleurs être fallacieuses et non représentatives d’une causalité[9]) ;

•           la fiabilité du modèle construit sur cette base dépend fortement de la qualité des données utilisées : les biais présents dans les données seront inéluctablement reproduits dans les modèles qui, sans correctif, ne feront que les renforcer.

Le concept d’IA est donc globalement à démystifier si l’on s’en tient à une interprétation stricte du mot « intelligence ». Nous avons en réalité affaire à des systèmes computationnels complexes et non à des répliques (même sommaires) du cerveau humain (qui inclut des processus perceptifs, l’apprentissage, l’auto-organisation, l’adaptation). Prenons l’une de sous-classes de l’apprentissage automatique, les réseaux de neurones : si leur conception est bien inspirée des neurones biologiques, leur fonctionnement est en réalité fortement optimisé par des méthodes probabilistes dites bayésiennes. En d’autres termes, ces réseaux sont aussi comparables à de réels neurones que les ailes d’un avion sont similaires à celles d’un oiseau[10].

Utilisé dans des environnements fermés, comme le jeu de go ou avec des données quantifiables sans aucune ambiguïté, les résultats peuvent être tout à fait exaltants au prix d’un très fort (et coûteux) investissement… humain[11]. Mais il serait très hâtif d’interpréter ces réussites dans des champs très étroits comme les prémisses de l’avènement d’une IA générale, nouveau Saint Graal des chercheurs[12] ni comme aisément transférables telles quelles pour d’autres applications. Exécuté dans des environnements ouverts et moins facilement quantifiables, ce formalisme est plus difficilement opérant : ce constat est particulièrement vrai lorsque l’on tente de mesurer des phénomènes sociaux où « il est bien plus difficile de retrouver une relation stable » que dans les sciences naturelles, riches de « faits têtus que l’on ne peut éliminer d’un revers de main »[13].

2. Un formalisme mathématique insuffisant à traduire fidèlement la mémoire de la justice 

Malgré ce simple constat, il n’aura toutefois pas fallu attendre très longtemps pour que des entrepreneurs tirent profit de l’engouement suscité par l’apprentissage automatique pour développer des solutions commerciales dans de très nombreux secteurs d’activité (commerces, transports, industries, urbanisme, médecine, …) à la recherche de nouveaux marchés, sans réelle conscience de la complexité de certains objets traités[14]. Ainsi, le droit a été une cible de choix, l’apparente logique du raisonnement juridique (dont le syllogisme des décisions judiciaires) conduisant les mathématiciens à penser qu’il y avait là matière à exploitation. Conjugué à un besoin (celui de rendre la réponse judiciaire plus prévisible) et à quelques idées reçues en découlant (tel que le fait que « l’aléa judiciaire » ne serait le résultat que des biais humains des juges et non d’un effort d’individualisation des décisions), des investisseurs, comme les assureurs, ont sponsorisé les coûteux développements de solutions d’apprentissage automatique avec des décisions judiciaires[15].

Quelle que soit la dénomination commerciale (justice prédictive, quantitative ou actuarielle), les applications développées recouvrent une même et unique réalité qui consiste à établir, pour des contentieux chiffrables comme la réparation du préjudice corporel, le droit du travail ou le divorce, divers types de probabilités sur la possible issue d’un litige en traitant non un récit brut mais des faits déjà qualifiés juridiquement. La construction de modèles mathématiques va donc s’appuyer sur une matière première, les décisions de justice déjà rendues dans ces types de contentieux, et l’apprentissage automatique pour découvrir des corrélations. Concrètement la machine va rechercher dans divers paramètres identifiés par les concepteurs (comme la durée du mariage, la situation professionnelle, la disparité de situation patrimoniale, l’âge et l’état de santé des parties pour les prestations compensatoires) les possibles liens avec les résultats prononcés par le tribunal (le montant de la prestation prononcée en fonction de ces critères). L’application de cette démarche au contenu d’un jugement exige toutefois une extrême rigueur, les corrélations d’ordre linguistique découvertes dans les décisions étant loin de pouvoir être interprétées de manière irréfutable comme des rapports de cause à effet[16].

Trois critiques principales sont à formuler à l’encontre de cette démarche de traitement de données issues de décisions judiciaires :

Ce formalisme, tout d’abord, ne permet pas de révéler la complexité des raisonnements juridiques opérés[17] – Il doit en effet être rappelé, comme l’a mis en lumière la théorie du droit, que le raisonnement judiciaire est surtout affaire d’interprétation. C’est que le fameux syllogisme judiciaire est plus un mode de présentation du raisonnement juridique que sa traduction logique, il ne rend pas compte de l’intégralité du raisonnement tenu par le juge, lequel est ponctué d’une multitude de choix discrétionnaires, non formalisables a priori. La cohérence d’ensemble des décisions de justice n’est jamais assurée et relèverait davantage d’une mise en récit a posteriori, que d’une description stricte de l’intégralité de ces décisions[18]. Or, l’apprentissage automatique est inopérant à effectuer ce travail d’interprétation, les concepteurs espérant tout au plus que la détection de régularité dans les contextes lexicaux réussisse à reproduire en sortie les mêmes effets que le processus décisionnel réel ayant produit ces données.

Un examen des travaux de l’University College of London, laquelle a annoncé être parvenue catégoriser correctement 79 % des décisions de la Cour européenne des droits de l’homme (violation ou non violation), confirme bien ce diagnostic[19]. Ces chercheurs n’ont en réalité été capables de ne produire une probabilité qu’à partir d’un matériel déjà traité juridiquement, qui renseignerait davantage sur la pratique professionnelle des juristes du greffe de la Cour (qui utilisent parfois des paragraphes pré-rédigés en fonction du traitement et de l’issue donnés à l’affaire) que sur le sens de la réflexion juridique[20]. Miroir de la représentation graphique d’un échantillon de décision, elle parvient au mieux à grouper des documents respectant le même formalisme mais peinerait sans nul doute très fortement à partir d’un récit brut d’un futur requérant devant la Cour de Strasbourg. Ces résultats sont surtout totalement étrangers à la question de la conformité en droit de telle ou telle solution, dès lors que ces calculs de probabilités ne peuvent pas discriminer entre les raisonnements juridiquement valides et ceux qui ne le sont pas.

Enfin, de tels calculs probabilistes ne sauraient en aucun cas épuiser le sens de la loi, comme l’a montré la question de l’utilisation des barèmes judiciaires : si tant est que ces barèmes aient toujours une pertinence statistique, ils ne sauraient, du seul fait de leur existence, se substituer à la loi elle-même, en réduisant notamment la marge d’interprétation que celle-ci offre nécessairement au juge[21].

Ce formalisme seul ne permet pas, par ailleurs, d’expliciter le comportement des juges[22] – L’autre grand mythe véhiculé par le discours de promotion des outils issus de l’IA serait leur capacité à expliquer les décisions de justice. Certaines legaltech ont en effet affirmé pouvoir identifier d’éventuels biais dus à la personne des magistrats, de nature à nourrir des suspicions de partialité. L’exploitation des noms des présidents de formation de jugement des juridictions administratives en open data avait permis un temps de construire un indicateur nominatif du taux de rejet de recours contre les obligations de quitter le territoire français[23]. Il n’est dès lors pas étonnant que l’une des principales questions qui animent encore le débat autour de ces nouveaux outils porte sur l’accès au nom des professionnels dans les décisions judiciaires ouvertes, notamment des magistrats[24]. Mais, peut-on réellement parvenir à éclairer le comportement des juges sur la base d’un traitement algorithmique des occurrences de leurs noms dans certaines décisions de justice ?

D’un point de vue scientifique, expliquer un phénomène ou, pour ce qui nous concerne, un comportement humain (celui d’un juge), revient à déterminer les mécanismes de causalité ayant conduit à ce comportement en présence d’un certain nombre de données contextuelles. Cela nécessite la constitution préalable d’un cadre interprétatif, constitué par les hypothèses ou points de vue adoptés par les différentes disciplines des sciences sociales[25].

Rappelons que l’IA bâti des modèles en tentant de révéler des corrélations dissimulées dans un grand nombre de données. Or, la seule corrélation statistique entre deux événements est insuffisante pour expliquer les facteurs réellement causatifs[26]. Appliqué au droit et aux décisions judiciaires, on mesure immédiatement ce qu’il peut y avoir de scientifiquement erroné et d’idéologique dans l’ambition de rendre objective la décision des juges grâce à des algorithmes. Fournir une véritable explication d’un jugement nécessiterait une analyse beaucoup plus fine des données de chaque affaire et ne saurait naître spontanément d’une masse de liens lexicaux dans lesquels figure le nom d’un magistrat. Par exemple, le fait qu’un juge aux affaires familiales fixe statistiquement davantage la résidence habituelle d’un enfant chez la mère dans un ressort déterminé ne traduit pas nécessairement un parti-pris de ce magistrat en faveur des femmes, mais s’explique davantage par l’existence de facteurs sociaux-économiques et culturels propres à la population de sa juridiction. De même, il paraît difficile d’attribuer une tendance décisionnelle à une formation juridictionnelle collégiale sur la seule base du nom de son président.

Les risques d’explications faussées des décisions de justice s’avèrent donc extrêmement élevés sur la base des seuls calculs probabilistes opérés. L’espoir de voir émerger du traitement par les IA une information de nature à produire une « norme issue du nombre » imposant aux juges un « effort renouvelé de justification » pour expliquer l’écart à la moyenne doit donc être largement tempéré au vu de la compréhension technique de la mécanique produisant cette moyenne[27]. Surtout, la seule valeur statistique des résultats obtenus demeure bien souvent hautement questionnable en l’absence d’une véritable maîtrise du périmètre des données prospectées et de l’effet « boîte noire » de certains algorithmes tels que l’apprentissage profond[28] (deep learning). De plus, comme l’a montré l’émergence des grilles de barèmes judiciaires, la tentation peut être grande pour les concepteurs de ces outils de se livrer à du data-snooping, c’est-à-dire à ne sélectionner en amont que des données de manière à ce qu’elles puissent être significatives au regard de grilles d’analyse prédéterminées, par exemple en éludant de l’échantillon des décisions se prêtant mal à des corrélations de séquences linguistiques (des décisions sans exposé du litige par exemple)[29].

Plus grave encore, les modèles d’apprentissage peuvent potentiellement reproduire et aggraver les discriminations[30] – Les différentes techniques de l’apprentissage automatique paraissent en effet en elles-mêmes neutres en termes de valeurs sociales : que l’apprentissage soit supervisé ou non, avec ou sans renforcement, s’appuyant sur des machines à support de vecteur ou des réseaux de neurones profonds, les sciences fondamentales qui les animent sont avant tout un formalisme. En revanche, l’utilisation de ce formalisme avec une méthode et des données biaisées entraînera systématiquement des résultats biaisés.

Prenons l’exemple de l’algorithme COMPAS[31] qui est utilisé de manière effective dans certains États américains afin d’évaluer la dangerosité des individus en vue de leur éventuel placement en détention provisoire ou lors du prononcé d’une condamnation pénale.  Cet algorithme s’appuie sur des études académiques en criminologie et en sociologie, sur différents modèles statistiques et le traitement d’un questionnaire de 137 entrées, relatif à la personne concernée et à son passé judiciaire sans aucune référence à son origine ethnique[32]. Le système fournit ensuite au juge différents « scores » à un horizon de deux années : risque de récidive, risque de comportement violent et risque de non-comparution pour les situations de placement en détention provisoire. La démarche apparaît a priori pluridisciplinaire et fondée scientifiquement.

Toutefois, en mai 2016, les journalistes de l’ONG ProPublica ont analysé l’efficacité des « prédictions » de  COMPAS sur une population de près de 10 000 individus arrêtés dans le comté de Broward (Floride) entre 2013 et 2014[33]. Cette étude a révélé non seulement un taux relativement faible de « prédictions » justes (61%) mais, en procédant à l’analyse approfondie des « faux positifs », elle a par ailleurs établi que les populations afro-américaines étaient pondérées d’un plus fort risque de récidive que les populations blanches. Inversement, les populations blanches ayant effectivement récidivées avaient été deux fois plus classifiées comme étant en risque faible que les populations afro-américaines. En d’autres termes, sans inclure l’ethnie des individus ou avoir été spécifiquement conçu pour traiter cette caractéristique, le croisement des données (dont le lieu de résidence) a indirectement surpondéré cet aspect au détriment d’autres facteurs sociaux individuels (éducation, emploi, parcours familial) et a conduit à influencer les juges avec des indicateurs proprement discriminatoires.

En reprenant du champ, on pourrait considérer que la problématique ainsi posée pour la matière pénale est singulière. Elle reste en réalité la même avec des affaires civiles, administratives ou commerciales : la nature de la matière contentieuse est en effet étrangère à la présence de biais dans la méthode et les données. Il serait intéressant par exemple d’examiner si, pour une série de prestations compensatoires dans lesquelles la situation maritale et économique est objectivement équivalente, les montants « prédits » par de tels algorithmes apparaissent pondérés différemment selon le lieu de résidence des parties. Dans la positive, quels critères, explicites ou sous-jacents, ont pu avoir une influence ? Sans explication ni transparence sur cet état de fait, cela revient à laisser une « boite noire » influer de manière tout à fait discrétionnaire sur l’issue d’un contentieux et à reproduire des inégalités.

3. Un formalisme mathématique fondateur d’une société gouvernée par les données

Des apprentissages automatiques n’ayant pas conscience de la complexité de la matière traitée (l’application de la loi et les phénomènes sociaux) risquent donc de créer plus de problèmes qu’ils prétendent apporter de solution. Loin de pouvoir offrir « une large collégialité et une indépendance davantage partagée[34] », ils sont susceptibles en réalité de cristalliser la jurisprudence autours de calculs biaisés n’étant représentatifs que d’eux-mêmes. Il est vrai qu’il semble difficile de se départir de la « troublante vocation » de certains systèmes computationnels : énoncer la vérité. Pour Eric Sadin, le numérique s’érigerait aujourd’hui comme « une puissance alèthéique, destinée à révéler l’alètheia, à savoir la vérité, dans le sens défini par la philosophie grecque antique, entendue comme la manifestation de la réalité des phénomènes à l’opposé des apparences[35] ».

Le grand emballement autour des potentialités, réelles ou fantasmées, de l’apprentissage automatique est donc hautement critiquable du fait de son manque patent de maturité mais, surtout, du fait de ce nouveau régime de vérité qu’il impose au mépris de ce qui devrait être un travail rigoureux d’analyse des résultats de ces outils, qui ne sont que le reflet imparfait et orienté d’une réalité qu’il s’agirait avant tout de tenter de décrire et de comprendre de manière pluridisciplinaire. Les efforts financiers et humains actuels des industries numériques se concentrent à bâtir hâtivement des cathédrales algorithmiques complexes dans l’espoir de lever, avant les autres concurrents entraînés dans la même course effrénée, des fonds avec une promesse : révéler une prétendue vérité naturelle et immanente en la saisissant dans les corrélations de l’apprentissage automatique. Or il s’agit de colosses dispendieux aux fondations extrêmement fragiles en ce qui concerne les décisions de justice : les systèmes juridiques restent très ouverts et un revirement peut invalider des décennies de patiente construction jurisprudentielle. Cette instabilité pose un problème bien fondamental à des algorithmes qui se construisent, avant tout, sur des statistiques d’événements passés.

L’on en vient à ce stade au principal argument des techno-évangélistes qui entendent alors faire taire toute critique de l’ancien monde : l’on ne pourrait (et l’on ne devrait) concevoir l’évolution de demain en restant figés dans nos référentiels actuels. Et il semble que l’on ne puisse pas leur donner entièrement tort, mais peut-être pas pour les raisons qu’ils envisagent. La transformation de fond réellement à l’œuvre, puisant dans un mélange surprenant d’idéologies néolibérales et libertarienne, est bien de substituer un référentiel à un autre : l’idée est de remplacer la règle de droit par d’autres mécanismes de régulation censés être plus efficaces pour assurer le fonctionnement de notre société. Et c’est bien là que réside le défi majeur de notre temps : l’IA n’est en réalité qu’un avatar, parmi d’autres, d’une ambition bien plus globale qui pose un défi démocratique sans précédent : une société gouvernée par les données (data driven society), se  substituant progressivement à l’Etat de droit que nous avons bâti ces derniers siècles.

La loi, bien qu’imparfaite, est avant tout l’expression collective d’un projet de société, miroir des priorités qu’un peuple souhaite se donner, et dont la valeur et l’intérêt sont discutées entre des représentants élus à même de composer un équilibre entre des intérêts contradictoires. L’IA, et les algorithmes en général, nous imposent, par un formalisme scientifique aux apparences neutres, une nouvelle rationalité qui est en réalité… celle de leurs concepteurs. En d’autres termes, la démocratie se retrouve confisquée par une nouvelle forme d’aristocratie, numérique, qui paraît se suffire à elle-même pour définir des notions aussi simples que le bien ou le mal[36]. Ce projet n’est au final pas très éloigné de celui de la physique sociale imaginé par Adolphe Quételet : le mathématicien belge du XIXème siècle envisageait l’homme comme libre mais il estimait que « ce qu’il apporte de perturbation dans les lois de la nature ne peut nullement altérer ces lois, du moins d’une manière permanente ». En posant ainsi les jalons d’une analyse systématique des phénomènes sociaux par la statistique, il ambitionnait de faire émerger un projet aux accents parfaitement totalitaires : l’élaboration d’une « statistique morale » glorifiant l’axe d’un homme moyen autour duquel tout homme aurait dû se référer.

Une lecture politique de la transformation numérique paraît donc aujourd’hui impérative afin de clarifier les réels défis posés par le numérique dans les débats publics et l’on comprend bien que ce ne sont pas les outils qui sont en cause mais bien ce que certains prétendent en faire. L’encadrement dès lors apparaît indispensable, qu’il s’agisse en premier temps de soft law ou de modes bien plus contraignants, à l’image du RGPD[37]. Cette construction devra toutefois s’effectuer consciente d’une autre réalité, tempérant peut-être l’urgence : l’écart qui existe encore entre les ambitions de l’IA dans le domaine de la justice et ses réalisations, très sectorielles et non généralisables, qui nécessitent des moyens humains de très haut niveau technique et des investissements financiers relativement substantiels. Meilleure alliée des discours idéologiques précédemment décrits, l’IA risque donc de se confronter plus rapidement que prévu à sa réelle rentabilité. Dans la deuxième édition de son rapport sur l’IA dans les entreprises, l’institut Deloitte révèle que les revenus issus de l’IA semblent extrêmement disparates en fonction des secteurs d’activité[38]. Si les entreprises technologiques pionnières semblent engranger d’importants bénéfices (plus de 20%), celles relevant des sciences naturelles et de la santé est bien plus modeste (13%). Sur le nouveau « marché du droit », la viabilité de modèles économiques reste encore hautement questionnable pour les investisseurs et les legaltech, qui ont obtenu des levées de fonds relativement considérables, devraient rester très attentives au contenu de leurs promesses… dont on pourrait prédire, au regard des présents développements, que certaines ont une assez forte probabilité de n’être jamais au rendez-vous-même en ouvrant le robinet de l’open data.


Retrouvez l’enregistrement vidéo de la 2ème séance du séminaire sur Youtube en cliquant ici.


Notes

[1] Cathy O’Neil, Weapons of Math Destruction, Crown, 2016.

[2] M. Chalabi, Weapons of Math Destruction: Cathy O’Neil adds up the damage of algorithms, The Guardian, 27 octobre 2016. https://www.theguardian.com/books/2016/oct/27/cathy-oneil-weapons-of-math-destruction-algorithms-big-data

[3] A ce titre les craintes de destructions de l’humanité par l’IA caractérisent assez bien cette forme d’alarmisme. Voir par exemple S. Hawking, S. Russel, M. Tegmark, F.Wilczek: ‘Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?’, The Independent,1 mai 2014 – https://www.independent.co.uk/news/science/stephen-hawking-transcendence-looks-at-the-implications-of-artificial-intelligence-but-are-we-taking-9313474.html

[4] Douglas Lenat, chercheur en intelligence artificielle et directeur de la société Cycorp

[5] Yann LeCun, Qu’est-ce que l’intelligence artificielle, Collège de France – Consulté sur le site du collège de France le 16 juin 2017 : https://www.college-de-france.fr/media/yann-lecun/UPL4485925235409209505_Intelligence_Artificielle______Y._LeCun.pdf

[6] Distinction notamment réalisée par John Searle dans les années 1980, où il différencie un système qui aurait un esprit (au sens philosophique) et pourrait produire de la pensée d’un système qui ne peut qu’agir (même s’il donne l’impression de pouvoir penser)

[7] Voir par exemple cet article de 20 minutes, qui relaie la communication d’une société éditrice de VeriPol sans aucune perspective critique : Espagne : la police utilise une intelligence artificielle pour débusquer les plaintes mensongères, 30 octobre 2018 – https://www.20minutes.fr/high-tech/2363327-20181030-espagne-police-utilise-intelligence-artificielle-debusquer-plaintes-mensongeres%E2%80%AC?fbclid=IwAR2SjlJxGdH0h0HosVCtCi3IZZcXl-zl6-tATip5axsfTnPWOcuw16zJ7OA

[8] Le théorème de Thomas Bayes, étendus par Pierre-Simon Laplace, date du XVIIIème  siècle ; les bases des réseaux neuronaux ont été développées dans les années 1940 par Warren McCulloch and Walter Pitts (Created a computational model for neural networks based on mathematics and algorithms called threshold logic, 1943)

[9] C. S. Calude, G. Longo, Le déluge des corrélations fallacieuses dans le big data, dans La toile que nous voulons – Le web néguentropique, B. Stiegler (dir.) : FYP éd., 2017, p. 156.

[10] S. Sermondadaz, Yann LeCun : L’intelligence artificielle a moins de sens commun qu’un rat, Sciences & Avenir, 24 janvier 2018 – https://www.sciencesetavenir.fr/high-tech/intelligence-artificielle/selon-yann-lecun-l-intelligence-artificielle-a-20-ans-pour-faire-ses-preuves_120121

[11] Voir par exemple AlphaGo Chronicles qui décrit la manière dont la société Deepmind est parvenue à entraîner une IA à battre le meilleur joueur humain de go en 2016. La conception d’un tel outil n’est pas résumée à la simple entrée de données dans un ordinateur, mais à justifier la mobilisation d’une équipe entière d’ingénieurs pour concevoir, tester et calibrer plusieurs couches différentes d’algorithmes. https://www.youtube.com/watch?v=8tq1C8spV_g

[12] L. Butterfield, Leading academics reveal: what are we getting wrong with AI?, Oxford University, 15 octobre 2018 – https://www.research.ox.ac.uk/Article/2018-10-15-leading-academics-reveal-what-are-we-getting-wrong-about-ai?fbclid=IwAR10KJv2UhcHPQQeKhDGJKL0XYsqpcs6Sev7HDLMvGRBuUTf6y7UQSkjZ5k

[13] P. Jensen, Pourquoi la société ne se laisse pas mettre en équation : Editions du Seuil, 2018.

[14] Y. Katz, Manufacturing an Artificial Intelligence Revolution, SSRN, 17 novembre 2017 https://ssrn.com/abstract=3078224 ou http://dx.doi.org/10.2139/ssrn.3078224

[15] Cet objectif justifie d’ailleurs l’intense lobbying opéré par les éditeurs juridiques et les legaltech sur l’ouverture totale des données judiciaires, prévue par les articles 20 et 21 de la loi pour une République numérique du 7 octobre 2016 et dont les décrets d’application restent à paraître.

[16] Sur la confusion entre corrélation et causalité, voir notamment D. Cardon, À quoi servent les algorithmes. Nos vies à l’heure des big data : Seuil, La république des idées, 2015.

[17] Les concepts ici présentés sont développés de manière plus substantielle dans Y. Meneceur,Quel avenir pour une justice prédictive : JCP G 2018, doctr.190.

[18] V. la célèbre figure du roman à la chaîne proposée par Ronald Dworkin (L’empire du droit, 1986, trad. française 1994 : PUF, coll. Recherches politiques, p. 251-252).

[19] Travaux sur un échantillon de 584 décisions de la Cour européenne des droits de l’Homme : N. Aletras, D. Tsarapatsanis, D. Preoţiuc-Pietro, V. Lampos, Predicting judicial decisions of the European Court of Human Rights : a Natural Language Processing perspective, 24 octobre 2016 – https://peerj.com/articles/cs-93/

[20] Précisions en ce sens que le taux de reproduction des décisions descend à 62% lorsque l’apprentissage se concentre sur la partie de raisonnement juridique d’application de la Convention (jeter une pièce en l’air offre approximativement 50% de tomber sur une face déterminée).

[21] C’est ce qu’a rappelé la Cour de cassation à propos des barèmes de pensions alimentaires (Cass. 1re civ., 23 oct. 2013, n° 12-25.301 : JurisData n° 2013-023208).

[22] Les concepts ici présentés ont également été développés plus longuement dans Y. Meneceur,Quel avenir pour une justice prédictive, op.cit.

[23] M. Benesty, L’impartialité des juges mise à mal par l’intelligence artificielle in Village de la justice, Tribunes et point de vue du 24 mars 2016 ; www.village-justice.com/articles/impartialite-certains-juges-mise,21760.html – le contenu du site Supralegem.fr n’est désormais plus accessible et l’adresse redirige vers dalloz.fr

[24] Mission d’étude et de préfiguration confiée au professeur Loïc Cadiet le 9 mai 2017 par le ministre de la Justice, dont les conclusions ont été rendues le 9 janvier 2018 ; www.justice.gouv.fr/publication/open_data_rapport.pdf (page consultée le 20 janvier 2018. – S’agissant des avocats, des problématiques singulières (possibilité de classement notamment) justifient également un certain nombre d’interrogations.

[25] Sur cette question, V. N. Regis, Juger, est-ce interpréter ? : Cahiers Philosophiques, Canopé éd., 2016, n° 147, p. 36-37.

[26] Voir le site internet Spurious Correlation qui recense un grand nombre de corrélations fallacieuses, tel qu’un taux de correspondance à plus de 99% entre 2000 et 2009 entre le nombre divorces dans l’Etat du Maine et la consommation de margarine par habitant – http://tylervigen.com/spurious-correlations

[27] É. Buat-Ménard et P. Giambiasi, La mémoire numérique des décisions judiciaires : D. 2017, p. 1483.

[28] Voir I. Daubechies, Machine Learning Works Great – Mathematicians Just Don’t Know Why, Wired, 12 décembre 2015 – https://www.wired.com/2015/12/machine-learning-works-greatmathematicians-just-dont-know-why/ 

[29] Dans cette logique, voir également la critique des statistiques infér entielles pour conclure sur le résultat d’un test statistique – R. Nuzzo, La malédiction de la valeur-p, Pour la Science, 10 janvier 2018.

[30] Ces développements sont approfondis dans Y. Meneceur, Les systèmes judiciaires européens à l’épreuve de l’intelligence artificielle, Revue de la prospective et de l’innovation, octobre 2018, pp11-16.

[31] Correctional Offender Management Profiling for Alternative Sanctions (Profilage des délinquants correctionnels pour des sanctions alternatives) est un algorithme développé par la société privée Equivant (ex-Northpointe) : http://www.equivant.com/solutions/inmate-classification.

[32] Practitioner’s Guide to COMPAS Core, Northpointe, 2015. http://www.northpointeinc.com/downloads/compas/Practitioners-Guide-COMPAS-Core-_031915.pdf

[33] L’étude et sa méthodologie est accessible en ligne : https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

[34] B. Louvel, Discours d’ouverture du colloque « La jurisprudence dans le mouvement de l’open data », 14 octobre 2016. https://www.courdecassation.fr/IMG///Open%20data,%20par%20B%20Louvel.pdf

[35] E. Sadin, Intelligence artificielle : résistons à la « main invisible automatisée », Le Monde, 22 février 2018.

[36] Le slogan de Google a été jusqu’en 2018 « don’t be evil » (il a été retiré depuis du code de bonne conduite de l’entreprise) ; Microsoft encourage les leaders mondiaux depuis la fin de l’année à la paix numérique (digital peace)

[37] Il ne sera pas développé ici la question de la régulation, voir à ce sujet Y. Meneceur, Les systèmes judiciaires européens à l’épreuve de l’intelligence artificielle, op.cit..

[38] Deloitte Insights, State of AI in the Enterprise, 2nd Edition, 22 octobre 2018. https://www2.deloitte.com/insights/us/en/focus/cognitive-technologies/state-of-ai-and-intelligent-automation-in-business-survey.html

Pour en finir avec les fantasmes de l’open data des décisions de justice

[Mise à jour du 23 novembre 2019 : Un amendement a été adopté. Déposé par Paula Forteza (TA AN n° 1396, 2018-2019, amendement n° 1425), il porte sur la réutilisation du nom des magistrats placés en open data et sanctionne certaines finalités de poursuite pénale : « Les données d’identité des magistrats et des fonctionnaires de greffe ne peuvent faire l’objet d’une réutilisation ayant pour objet ou pour effet d’évaluer, d’analyser, de comparer ou de prédire leurs pratiques professionnelles réelles ou supposées. La violation de cette interdiction est punie des peines prévues par les articles 226‑18, 226‑24 et 226‑31 du Code pénal, sans préjudice des mesures et sanctions prévues par la loi n° 78‑17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés ». Le billet ci-dessous, du 9 novembre 2018, ne tenait pas compte de cette évolution. Il demeure encore des points à éclaircir : adresse postale, régime du nom des avocats et autres professions ayant concouru à la décision]

L’Assemblée nationale vient d’adopter ce 9 novembre 2018 un amendement extrêmement technique à l’article 19 de la loi de programmation 2019-2022 et de réforme pour la justice, portant sur l’ouverture libre au téléchargement de la base de données de toutes décisions de justice (open data). Cet amendement tranche la question de la mention des noms des magistrats et desfonctionnaires de greffe dans cette base informatique structurée, en posant un principe de publicité, sauf « à porter atteinte à la sécurité ou au respect de la vie privée de ces personnes ou de leur entourage ».

En témoin extérieur, il n’y aurait là rien d’anormal à ce que les décisions de justice, par nature rendues au nom du peuple français et publiques, portent mention des noms des professionnels ayant concouru à la prise de décision. Ce serait même la traduction numérique d’une obligation connue de publicité des décisions de justice, déjà codifiée[1]. Pourtant, cet amendement cherche à atteindre un autre objectif, non mentionné dans l’exposé des motifs : celui de pouvoir profiler les juges.

1/ Distinguer les finalités propres de la publicité des décisions de justice de celles de l’open data

Clarifions immédiatement le débat afin de prévenir toute confusion : la publicité unitaire des décisions est déjà assurée dans les jugements papiers délivrés aux parties. Les critiques portant sur la mention de noms dans l’open data n’entendent absolument remettre en cause ces dispositions. Par ailleurs, une sélection de décisions de justice sont déjà disponibles de manière dématérialisée et pseudonymisée[2] sur Legifrance.fr (service public de la diffusion du droit par l’internet). Ce moteur de recherche permet par exemple, à l’aide de mots-clés, d’accéder à une version électronique des décisions judiciaires de la Cour de cassation et à une sélection de décisions de degré inférieur. En totale conformité avec les dispositions de la loi informatique et libertés (et au RGPD), le nom des parties est occulté et le nom des professionnels maintenu dans cette publication électronique. Là encore, les débats ne portent pas sur cette situation. Qu’est-ce qu’il y aurait donc de neuf avec l’open data ? Certainement pas une simple extension du nombre de décisions publiées sur Légifrance.

Revenons tout d’abord au changement complet de paradigme opéré par les articles 20 et 21 de la loi pour une République numérique d’octobre 2016, qui ont déjà totalement renversé la logique de publicité des décisions : d’un principe de sélection de décisions présentant un intérêt particulier résultant du décret du 7 août 2002[3], l’idée est désormais de (quasiment) tout rendre public. Mais pas d’un point de vue unitaire avec une interface de moteur de recherche comme Légifrance comme moyen d’accès, mais d’un point de vue global et systémique : au sens strict, l’open data c’est une base de données informatique brute, librement téléchargeable, et dont la licence autorise à en réemployer son contenu sans le paiement d’une redevance à son producteur. Il faut donc bien distinguer les obligations de publicité des décisions, déjà remplies par les juridictions lors de la délivrance des jugements papiers (et de manière compréhensible pour les citoyens sur Légifrance), avec les objectifs propres de l’open data des décisions de justice : rendre accessibles à tous les opérateurs (publics et privés) des données pouvant être retraitées informatiquement à volonté. Et quand on parle d’accessibilité, on ne parle pas d’intelligibilité. Ces bases de données brutes sont en effet totalement incompréhensibles pour la plupart des citoyens et ne présentent d’intérêt que pour des techniciens sachant les retraiter. On qualifie souvent les données de pétrole du XXIème siècle : l’open data est d’une certaine manière du pétrole brut gratuit à destination de raffineurs. Prêter des vertus de transparence à l’open data, c’est donc d’abord espérer que des tiers puissent s’en saisir pour créer du sens et de la valeur.

2/ Comprendre le sens et la valeur du traitement du nom des juges par des algorithmes

Et c’est bien là que se sont situés les débats postérieurs à la loi pour une République numérique, clarifiés par une mission d’étude et de préfiguration confiée au professeur Loïc Cadiet (dont les conclusions ont été rendues en novembre 2017[4]). Si cette ouverture de données ne concernait que des données non-nominatives, il n’y aurait guère de difficulté. Mais les possibilités de traitement et de croisement de noms ainsi classifiés dans une base de données rendent extrêmement sensible la question. Et le fait qu’il s’agisse de noms de professionnels, comme les magistrats, dont il convient de garantir l’indépendance et l’impartialité rend encore plus délicate cette question.

Les débats ont fait rage et tout semble s’y être mélangé. D’abord la confusion entre l’obligation de publicité et les objectifs propres de l’open data, venant de l’incompréhension totale du terme lui-même (certains ont pensé débattre des algorithmes de traitement, d’autres ont cru qu’il s’agissait de supprimer le nom des magistrats des décisions accessibles de manière unitaire sans imaginer qu’il s’agissait en réalité de la question de livrer tout le coffre au trésor, c’est-à-dire une base de données nominative). Ensuite en alimentant des soupçons corporatistes sur les magistrats qui ne résisteraient que pour éviter de rendre des comptes. Enfin, les affirmations, approximatives, de l’Assemblée nationale selon lesquelles la précédente rédaction de cet article par le Sénat aurait eu « pour effet d’empêcher l’open data des décisions de justice » en ce que « elle imposerait un objectif impossible à atteindre, sauf à effacer des parties entières des décisions de justice avant leur diffusion au public, ce qui rendrait les décisions de justice illisibles et inexploitables ». Il était question d’au moins pseudonymiser le nom des juges, non de l’anonymiser ! Tout cela a habilement occulté la question centrale qui aurait pourtant dû être traitée avant toute autre considération. Quel est le sens et la valeur du traitement d’une telle donnée nominative ?

L’exploitation des noms des présidents de formation de jugement des juridictions administratives (déjà partiellement en open data) avait pourtant permis de percevoir l’inanité d’un indicateur nominatif du taux de rejet de recours contre les obligations de quitter le territoire français[5]. Il paraissait non seulement improbable de penser isoler la tendance décisionnelle d’un président d’une formation juridictionnelle collégiale (dont la composition est par essence variable dans le temps) mais, surtout, la corrélation établie peinait à révéler une réelle cause. D’un point de vue scientifique, en effet, expliquer un comportement humain (celui d’un juge), revient à déterminer les mécanismes de causalité ayant conduit à ce comportement en présence d’un certain nombre de données contextuelles. Cela nécessite la constitution préalable d’un cadre interprétatif, constitué par les hypothèses ou points de vue adoptés par les différentes disciplines des sciences sociales[6]. Or, la seule corrélation statistique entre deux événements est insuffisante pour expliquer les facteurs réellement causatifs[7]. Appliqué au droit et aux décisions judiciaires, on mesure immédiatement ce qu’il peut y avoir de scientifiquement erroné et d’idéologique dans l’ambition de tenter de rendre objective la décision des juges grâce à des algorithmes moulinant de l’open data. Fournir une véritable explication d’un jugement nécessiterait une analyse beaucoup plus fine des données de chaque affaire et ne saurait naître spontanément d’une masse de liens lexicaux dans lesquels figure le nom d’un magistrat. Par exemple, le fait qu’un juge aux affaires familiales fixe statistiquement davantage la résidence habituelle d’un enfant chez la mère dans un ressort déterminé ne traduit pas nécessairement un parti-pris de ce magistrat en faveur des femmes, mais s’explique davantage par l’existence de facteurs sociaux-économiques et culturels propres à la population de sa juridiction[8].

3/ Et si la structuration des tuyaux de l’open data était la toute une première priorité ?

Les juges ne cherchent donc pas à être encagoulés comme l’affirmait le Canard Enchaîné le 25 avril 2018, ils n’ont pas à rougir pas de leurs décisions. Mais ils craignent des explications faussées et biaisées des décisions de justice qu’ils rendent. Car un profilage des juges qui confondrait outrancièrement corrélation et causalité viendrait profiter à des grands opérateurs économiques, à même de manipuler (dans tous les sens du terme) cette information… et probablement au détriment des citoyens que nous sommes.  

L’on perd malheureusement de vue la toute première priorité dans cette affaire : arriver à structurer les tuyaux de l’open data, puisque, à ce jour, ils n’existent que très partiellement. Il y a là un défi technique majeur à parvenir tout simplement à regrouper toutes les décisions judiciaires dans un format nativement numérique et à les pseudonymiser, défi pour lequel il conviendrait avant tout de donner des moyens substantiels au ministère de la justice, à la Cour de cassation et aux juridictions. Bien sûr, les éditeurs et des legaltechs préféreraient des flux « intègres » (c’est-à-dire des décisions dont les données nominatives ne seraient pas occultées) pour opérer eux-mêmes une pseudonymisation, mais il sera bien temps d’ouvrir progressivement les vannes de ce que l’on déverse dans la jungle numérique une fois que l’on aura clarifié, par un travail scientifique rigoureux soucieux de l’intérêt général, si l’on peut arriver à donner du sens et de la valeur à ces données sans compromettre quelques principes fondamentaux.


Les présents développements focalisent principalement sur les décisions judiciaires et le nom des magistrats – les problèmes demeurent identiques en ce qui concerne les décisions des juridictions administratives et il ne sera mentionné que l’expérience menée par le sitesupralegem.fr ; les enjeux spécifiques de la présence du nom des greffiers, des avocats ou d’autres professionnels ne seront pas développés ici mais demeurent également à questionner.

[1] L’article 454 du Code de procédure civile par exemple dispose : « Le jugement est rendu au nom du peuple français. Il contient l’indication : de la juridiction dont il émane ;  du nom des juges qui en ont délibéré ; de sa date ; du nom du représentant du ministère public s’il a assisté aux débats ; du nom du secrétaire ; des nom, prénoms ou dénomination des parties ainsi que de leur domicile ou siège social ; le cas échéant, du nom des avocats ou de toute personne ayant représenté ou assisté les parties ; en matière gracieuse, du nom des personnes auxquelles il doit être notifié. »

[2] La pseudonymisation ou « anonymisation réversible » consiste à remplacer un attribut par un autre dans un enregistrement. La personne physique n’est donc plus directement identifiable par son nom (qui est remplacé par exemple par un X…) mais elle est toujours susceptible d’être identifiée indirectement, par croisement de plusieurs données.

[3] Article R. 433-3 du code de l’organisation judiciaire

[4] L’open data des décisions de justice, mission d’études et de préfiguration sur l’ouverture au public des décisions de justice, Rapport à Madame la garde des Sceaux, ministre de la justice, novembre 2017 : http://www.justice.gouv.fr/publication/open_data_rapport.pdf

[5] M. Benesty, L’impartialité des juges mise à mal par l’intelligence artificielle in Village de la justice, Tribunes et point de vue du 24 mars 2016 ; www.village-justice.com/articles/impartialite-certains-juges-mise,21760.html – le contenu du site Supralegem.fr n’est désormais plus accessible et l’adresse redirige vers dalloz.fr

[6] Sur cette question, V. N. Regis, Juger, est-ce interpréter ? : Cahiers Philosophiques, Canopé éd., 2016, n° 147, p. 36-37.

[7] Voir le site internet Spurious Correlation qui recense un grand nombre de corrélations fallacieuses, tel qu’un taux de correspondance à plus de 99% entre 2000 et 2009 entre le nombre divorces dans l’Etat du Maine et la consommation de margarine par habitant – http://tylervigen.com/spurious-correlations

[8] Pour de plus amples développements, voir Y. Meneceur, Quel avenir pour une justice prédictive : JCP G 2018, doctr.190.

IA et droits de l’homme

Le Conseil de l’Europe vient d’ouvrir le premier portail européen portant sur l’intelligence artificielle (IA) et ses implications en ce qui concerne les droits de l’homme, la démocratie et l’Etat de droit.

Ce site recense tous les travaux actuellement en cours au sein de l’organisation internationale, dans ses différents comités, commissions et organes. Il propose de plus des articles de vulgarisation visant à contribuer une meilleure connaissance du phénomène et de ne céder ni à un alarmisme excessif, ni au solutionnisme qui habite encore de trop nombreux discours. 

Ce portail aura également vocation à communiquer sur la partie de l’agenda stratégique du Conseil de l’Europe à l’horizon 2028 portant sur l’IA.

Le Conseil de l’Europe invite également tous les acteurs de l’IA (secteur privé, secteur public, recherche) à utiliser le hashtag #CoE4AI pour signaler leurs initiatives de développement de solutions nativement conçues pour se mettre en conformité avec les valeurs défendues par l’institution.