L’open data des décisions de justice : un nouveau mode de publication des décisions

La définition de la signification et de la portée de l’open data des décisions de justice semble encore devoir être clarifiée, même si deux régimes distincts se dégagent de la loi de programmation et de réforme de la justice sur la base d’un critère de fréquence. Ajouter la finalité de la demande pour affiner cette clé de distinction permettrait d’écarter l’instrumentalisation de la publicité aux fins de constituer des fonds jurisprudentiels, action qui relève… de la notion de publication des décisions.


Dans le prolongement de la loi du 23 mars 2019 de programmation 2018-2022 et de réforme pour la justice[1]qui limite dans certaines hypothèses la mise à disposition électronique des décisions de justice avec le nom des magistrats, une étude de l’IFOP de juin 2019 révèlerait que 87 % des avocats seraient opposés à l’anonymisation des décisions de justice, notamment chez les 60 ans et plus (94%), ceux qui exercent en individuel (92%), les indépendants (92%) et les avocats travaillant dans le droit pénal (94%)[2]. Vu de l’étranger[3], même incompréhension de ces nouvelles dispositions, où les peines de 5 ans d’emprisonnement et 300 000 euros d’amende[4]encourues par toute personne opérant au « profilage » de juges[5], sont perçues comme « unique au monde » et à contrecourant d’un large mouvement de transparence de la vie publique, traduites par les politiques d’open data[6]. En France, une lettre co-signée par des associations de chercheurs a été adressée au Conseil Constitutionnel pour s’émouvoir des craintes d’entraves pour « les recherches sur le fonctionnement, les activités et les décisions des juridictions administrative et judiciaire[7]. » La décision même du Conseil constitutionnel n°2019-778 DC du 21 mars 2019[8], faisant suite à quatre saisines parlementaires pour effectuer un contrôle a priori de constitutionnalité de cette loi a pu être interprétée quelque peu hâtivement par certains commentateurs[9]comme un blanc-seing délivré aux legaltech pour aller puiser directement dans le gisement des données judiciaires des juridictions en revendiquant par exemple « la consécration par le Conseil constitutionnel du principe de la publicité de la justice ».

Un principe de publicité des décisions de justice consacré depuis longtemps, un principe de publication à qualifier

Or, commençons simplement par rappeler que la loi de programmation et de réforme de la justice n’a pas remis en cause les accès existants aux noms des professionnels dans les décisions de justice et ne fait qu’ajouter un nouveau mode de délivrance. De même, il n’y a rien de réellement nouveau en ce qui concerne le principe de publicité, celui étant consacré depuis bien longtemps dans notre droit positif, pour le trouver notamment dans l’article 6 § 1 de la Convention EDH et l’article 11-3 de la loi n° 72-626 du 5 juillet 1972 instituant un juge de l’exécution et relative à la réforme de la procédure civile. L’obligation posée par ce principe est satisfaite par l’accès « physique » de tout citoyen à la salle d’audience lors des débats et du prononcé de la décision, sauf exception justifiée compte tenu de la matière ou de circonstances particulières au procès. Relevons que l’obligation de prononcé public de la décision est aussi satisfaite par l’inscription du jugement au greffe du tribunal et sa parution dans les recueils officiels[10]. Ce principe de publicité vient répondre à des préoccupations tout à fait fondamentales, caractérisant ce que devrait être tout procès équitable dans un État de droit : la justice étant rendue au nom du peuple, il doit être permis à tout citoyen de constater par lui-même du respect des formalités substantielles caractérisant un tribunal (juridiction valablement constituée, règles procédurales respectées). L’accès d’un tiers à la décision est à concevoir dans ce cadre précis de manière ponctuelle et unitaire, comme un droit de regard sur toute procédure, le laissant notamment libre d’une intervention s’il y estime y avoir un intérêt. L’extension du mode de délivrance des décisions de justice à un format électronique ne peut donc que faciliter cette publicité.

Mais attention de ne pas l’assimiler à l’open data, qui est à entendre comme une forme élargie de publication des décisions de justice, cette dernière étant caractérisée par une possibilité d’accès systématique à tout ou partie du patrimoine jurisprudentiel, pour une finalité bien spécifique : la mise en relief du fond juridique de son contenu. Le terme d’open data des décisions de justice devrait être donc être strictement réservé pour qualifier précisément une nouvelle forme d’accès à titre non onéreux à une base de données consolidée d’un très grand ensemble des décisions de justice, accès concédé par une licence décrivant les conditions exactes de réutilisation des données. Forme élargie de publication qui devrait d’ailleurs être, par défaut et compte des enjeux spécifiques des décisions judiciaires par rapport à des documents administratifs, totalement pseudonymisée tout en autorisant, en fonction d’accords au gré à gré avec la recherche universitaire ou des opérateurs privés, l’accès à des flux intègres pour des finalités clairement déterminées.

Une distinction malheureusement encore en filigrane, favorisant la « stratégie du pirate »

Le Conseil constitutionnel, dans les paragraphes 96 et suivants de sa décision du 21 mars 2019, n’est pas allé aussi loin dans la clarification des finalités et s’est attaché à prévenir le transfert de la charge de la pseudonymisation sur l’ensemble des tribunaux en invoquant le principe de bonne administration de la justice. Il reconnaît ainsi la conformité des dispositions qui restreignent toute collecte systématique dans les juridictions sous le couvert de la publicité des décisions, en n’invalidant pas les restrictions posées par le législateur en cas de « demandes abusives, en particulier par leur nombre ou par leur caractère répétitif ou systématique[11]. »

La circulaire du 19 décembre 2018[12]et la note du ministère de la justice du 4 juin 2019 relative au traitement des demandes de copies de décisions judiciaires émanant de tiers à l’instance ne clarifient pas plus les concepts même si elles opèrent une distinction entre demande isolée et demandes de masse et conduisent, de fait, à définir deux régimes distincts sur un critère quantitatif. La décision de la cour d’appel Douai du 21 janvier 2019[13]ne procède pas à une analyse différente puisqu’elle a répondu favorablement à la demande d’unelegaltechen présence d’une « demande isolée ». Quant à la décision de la cour d’appel de Paris du 18 décembre 2018[14], qui s’était positionnée en faveur d’une mise à disposition de l’intégralité du répertoire des affaires civiles du tribunal de grande instance de Paris au format numérique, celle-ci a été rétractée par un nouvel arrêt de la même juridiction le 25 juin 2019 aux motifs que la demande formulée devait être analysée comme « une demande d’accès à des décisions de justice a titre gratuit sous forme électronique gouvernée par l’article L. 111-13 du COJ, correspondant à la mise en œuvre de l’open data[15] » et non une simple demande de tiers sollicitant l’accès à des décisions de justice.

Pour un égal accès de tous les opérateurs au patrimoine jurisprudentiel

Il semble impératif de pouvoir maintenant assurer un accès égal à tous les opérateurs dans un contexte où certains semblent parfois tout mélanger pour arriver à leurs fins, au mépris d’évidences, des textes eux-mêmes ou de ce que l’on pensait être de solides acquis. Delphine Iweins et Déborah Loye caractérisent dans « les Echos » ce comportement comme une « stratégie du pirate » qui « consiste à s’établir puis à miser sur le lobbying pour ajuster la réglementation », en s’interrogeant si c’est aujourd’hui une voie nécessaire à l’innovation plutôt que de « travailler main dans la main avec les acteurs établis, au risque de mourir d’épuisement à cause de leur inertie[16]. » Rien de nouveau quand l’on pense à certains prestataires de services qui ont employé les mêmes techniques dans d’autres secteurs (véhicules avec chauffeurs, livraison de repas, trottinettes électriques par exemple) pour conquérir des marchés en instrumentalisant un discours d’intérêt général. Mais, là encore, il convient de faire la part des choses et de ne pas ignorer que ce souffle de « disruption » est avant tout motivé par la défense d’intérêts particuliers imposant de convaincre d’une viabilité sans cesse renouvelée pour lever des fonds tous les 18 mois. 

Cette stratégie de vitesse a un prix et se confronte inévitablement aux conséquences de ses propres pratiques. Une legaltech française vient ainsi de faire l’objet d’une plainte qui a été déposée le 14 juin 2019 par le Conseil national des barreaux (CNB) et le barreau de Paris auprès du procureur de la République de Paris. Les plaignants allèguent 6 infractions : usurpation du titre d’avocat, escroquerie, vol simple et accès et maintien frauduleux dans un système informatique, usurpation d’identité, recel et traitement automatisé d’informations nominatives sans déclaration préalable à la Commission nationale de l’informatique et des libertés (CNIL)[17].


[1]Art.33 de la loi n° 2019-222 du 23 mars 2019 de programmation 2018-2022 et de réforme pour la justice : https://www.legifrance.gouv.fr/eli/loi/2019/3/23/JUST1806695L/jo/texte

[2]T. Coustet, 87% des avocats opposés à l’anonymisation des décisions de justice, Dalloz Actualités, 13 juin 2019 (étude IFOP pour la legaltech Doctrine) : https://www.dalloz-actualite.fr/flash/87-des-avocats-opposes-l-anonymisation-des-decisions-de-justice?utm_source=dlvr.it&utm_medium=twitter#.XQJq4_ZuJaR

[3]France Bans Judge Analytics, 5 Years In Prison For Rule Breakers, Artificial Lawyer, 4 juin 2019 : https://www.artificiallawyer.com/2019/06/04/france-bans-judge-analytics-5-years-in-prison-for-rule-breakers/ou encore M. Langford, M. Rask Madsen, France Criminalises Research on Judges, Verfassungsblogon matters constitutional, 22 juin 2019 : https://verfassungsblog.de/france-criminalises-research-on-judges/

[4]Alignant cette infraction sur le régime des peines prévues par les articles 226-18, 226-24 et 226-31 du code pénal, spécifiques à la collecte des données à caractère personnel par un moyen frauduleux, déloyal ou illicite

[5]Le texte de l’article « Les données d’identité des magistrats et des membres du greffe ne peuvent faire l’objet d’une réutilisation ayant pour objet ou pour effet d’évaluer, d’analyser, de comparer ou de prédire leurs pratiques professionnelles réelles ou supposées »

[6]Voir notamment les travaux de l’organisation multilatérale Open Government Partnershipà laquelle adhère la France : https://www.opengovpartnership.org/

[7]Des risques de la Loi de programmation 2018-2022 : lettre au Conseil constitutionnel, co-signée par l’association française de sociologie (AFS), l’association des historiens contemporéanistes de l’enseignement supérieur et de la recherche (AHCESR), l’association française de science politique (AFSP), Annette Wieviorka, Directrice de recherche émérite (CNRS) et Thomas Perroud, professeur de droit public à l’Université Panthéon-Assas — CERSA : https://afs-socio.fr/des-risques-de-la-loi-de-programmation-2018-2022-lettre-au-conseil-constitutionnel/

[8]Décision du Conseil constitutionnel n°2019-778 DC du 21 mars 2019 : https://www.conseil-constitutionnel.fr/decision/2019/2019778DC.htm

[9]Voir B. Cassar, Reconnaissance constitutionnelle de la transformation numérique du monde juridique : de l’open data aux LegalTech, Actualité du droit, Wolters Kluer, 27 mars 2019 ou Doctrine salue la consécration par le Conseil constitutionnel du principe de publicité de la justice, 22 mars 2019, site internet Doctrine.fr

[10]CEDH, 22 fév. 1984, n°8209/78, Sutter c. Suisseet art.451, 1016, 1440 CPC

[11]Art. L111-14 COJ

[12]Circ., 19 déc. 2018, NOR : JUSB1833465N, relative à la communication de décisions judiciaires civiles et pénales aux tiers à l’instance

[13]CA Douai, 21 janv. 2019, n°18/06657

[14]CA Paris, pôle 2, chambre 1, 18 déc. 2018, n°17/22211

[15]CA Paris, pôle 2, chambre 1, 25 juin 2019, n°19/04407

[16]D. Iweins, D. Loye, La guerre s’intensifie entre Doctrine et les avocats, Les Échos entrepreneurs, 27 juin 2019.

[17]Des avocats reprochent à l’une de ces legaltech un fichage compilant toutes les décisions de justice dans lequel leurs noms apparaît, avec le nom de leurs clients, même ceux dont la procédure est toujours en cours. Ce qui explique également la résolution du CNB du 15 juin 2019 visant à bénéficier des mêmes garanties que les magistrats et les fonctionnaires de greffe.

Les Temps Electriques, ce n’est pas fini !

Pas d’émissions en mai ni juin ? Pas d’inquiétude, l’équipe des Temps Electriques s’est accordée une petite pause, bien méritée, mais vous prépare de nouveaux thèmes pour la rentrée.

Nous vous proposerons une saison 2 pour tenter de continuer à comprendre ensemble quel est déjà l’impact numérique sur le droit et la justice, avec quelques pistes nouvelles de format et de contenu.

Nous tâcherons durant l’été de vous envoyer quelques cartes postales pour que vous ne nous oubliez pas… restez branchés !

L’équipe des Temps Electriques

Chronique de l’émission “Droit et mathématiques”

Droit et mathématiques : les frères ennemis ?

Invité : Jean Lassègue, chercheur au CNRS et co-auteur avec Antoine Garapon de l’ouvrage “Justice Digitale”, paru aux éditions des PUF

Questionner le rapport fondamental entre le droit et les mathématiques pourrait paraître surprenant (je ne dis pas dépassé) dans une émission dédiée au numérique.

Pourtant, les développements depuis 2010 d’une marque commerciale « intelligence artificielle » (ou IA) a réactivé l’utilisation massive du formalisme mathématique, plus précisément des statistiques, pour traiter des masses considérables de données avec des prétentions bien connues : modéliser des comportements, des actions non seulement afin de les automatiser (les reproduire) mais peut-être même les anticiper. C’est bien là le cœur des algorithmes d’apprentissage dits de machine learning, derrière lesquels il n’y a aucune magie autre que la construction automatique de modèles mathématiques en découvrant les liens (corrélations) cachés dans la masse des données qu’on leur fait ingurgiter.

Cet émerveillement (cette sidération même) qui a saisi l’humanité entière en voyant AlphaGo, une IA spécialisée au jeu de go, plier en deux temps trois mouvements le meilleur joueur humain (puis d’ailleurs se battre elle-même, dans une sorte d’extraordinaire mise en abyme), a conduit à un grand trouble. Un grand malentendu même.

De manière assez opportune, l’industrie numérique a réanimé des qualifications anthropomorphiques pour désigner ce traitement massif de données statistiques (intelligence, neurone, apprentissage) et, peut-être, éviter de convoquer les décennies de débat sur les apports des sciences dures. Or, comme le dit Pablo Jensen dans son livre « Pourquoi la société ne se laisse pas mettre en équation ? », il y a des faits têtus dans les sciences naturelles que l’on ne peut ne balayer d’un revers de main, mais quand l’on arrive à traiter de phénomènes sociaux, il est bien plus difficile de trouver des relations stables.

La systématisation de l’application de l’IA dans tous les champs de l’activité humaine relève donc clairement du solutionnisme, dénoncé par Evgeny Morozov dans « Pour tout résoudre, cliquez ici ».

Peut-être faut-il donc revenir aux bases, qualifier ce que l’on voit avec des mots précis et identifier ce que l’histoire nous appris.

Sans s’égarer dans le temps avec notre DeLorean de Retour vers le futur (oui la production d’Amicus Radio dispose d’un budget démentiel), remontons un instant au XVIIIème siècle : le marquis de Condorcet, influencé par les savants de l’Italie du Nord comme Beccaria qui tentent de formaliser le réel, écrit des premiers essais sur les mathématiques sociales  et, déjà, sur la jurisprudence dans un texte inachevé « sur les lois criminelles en France ». Avançons brièvement vers Adolphe Quételet au XIXème siècle cette fois-ci : docteur en mathématiques, il a développé pour sa part la « physique sociale », érigeant l’homme moyen comme valeur centrale. Un brin effrayant peut-être… Auguste Comte réagira à ces idées et développera ce qui allait devenir la sociologie… 

Quels enseignements tirer de cela ? Est-ce qu’il n’y aurait finalement pas une forme de totalitarisme à faire rentrer les humains dans des cases logiques ? L’irrationnel comportement (apparent) de l’humain et ses contradictions ne sont-elles pas mieux régulées par le droit, et sa texture ouverte, que des règles logiques ? 

Jean Lassègue et Antoine Garapon ont traité de la révolution que nous sommes en train de vivre sous l’angle d’une révolution graphique, d’une nouvelle forme d’écriture qui s’imposerait à nous… écriture purement mathématique. 


Ecoutez l’entretien avec Jean Lassègue, chercheur au CNRS et co-auteur avec Antoine Garapon de l’ouvrage “Justice Digitale”, paru aux éditions des PUF

Pourquoi la justice résiste-t-elle aux algorithmes ?

Texte et vidéo du TEDx Issy-les-Moulineaux “Retour au local”
22 novembre 2018 (Issy-les-Moulineaux)

Retrouvez l’enregistrement vidéo sur Youtube en cliquant ici.


Séquence 1 | La résistance des tribunaux au changement : une idée à modérer 

Les magistrats ne sont pas résistants culturellement au numérique : nombre de juges, procureurs et greffiers sont sur les réseaux sociaux ; certains développent même des applications !

La justice n’a pas été en retard pour intégrer l’informatique : dès les années 80 le Casier judiciaire a été informatisé ; le problème c’est que certains des outils sont devenus obsolètes…

ALORS OUI, il y aurait une urgence à se saisir dès aujourd’hui des derniers développements technologiques comme l’IA pour contribuer à combler le fossé entre les citoyens et la justice (constat d’un déficit de confiance entre eux et la justice, le temps et l’aléa sont devenus inacceptables) afin d’offrir des services en accord avec notre temps

Comment passer de l’incantation à la réalité, en ne piétinant pas certains principes fondamentaux : Et si au lieu de tenter construire des cathédrales numériques (des gros systèmes) l’idée d’un retour à un dialogue de proximité, local était une solution ? Avant d’énoncer une solution, analysons la situation – spécifiquement avec de l’IA !


Séquence 2 | Une des possibles raisons de la résistance des juges à l’IA ?

Une hypothèse : et si ce n’était du corporatisme ? A moins que le formalisme mathématique ne soit pas suffisant pour modéliser de manière rigoureuse le raisonnement judiciaire ?

Ce que l’on appelle aujourd’hui IA n’est qu’une grosse machine qui fait des modèles mathématiques et statistiques : l’IA de Terminator n’est pas prête d’exister, les développements d’aujourd’hui (machine learning) sont une représentation statistique d’un environnement donné

Cela marche bien dans un environnement fermé avec des choses quantifiables physiquement : on peut construire une prévision du nombre possible du nombre de vente de crèmes glacées en fonction de la  température de l’air

Mais il est plus difficile de trouver des constantes dans les phénomènes sociaux : moins de stabilité dans les relations sociales que dans les phénomènes physiques (Jensen) – il en est de même quand il faut traiter des conflits

  • C’est le mirage de la justice prédictive et le danger du « solutionnisme » (Morozov) c’est-à-dire croire que le numérique peut tout résoudre
  • Risque des biais (raciaux – par exemple aux États-Unis avec COMPAS)

Alors on jette tout et on n’en fait rien ? Ce serait une erreur !


Séquence 3 | Une possible solution ? Réinventer la justice par le numérique via une construction pluridisciplinaire en revenant… au local

Comprendre les phénomènes sociaux exigent une approche pluridisciplinaire au plus près des citoyens : exemple de la méthode de la déclaration de Montréal pour associer les citoyens à la définition de valeurs à protéger ou à promouvoir en organisant des ateliers dans des bibliothèques

Ouvrons les portes à un travail agile entre différents métiers, afin de bâtir des applications Human rights by design : c’est ce que souhaite défendre comme vision le Conseil de l’Europe dans sa politique de régulation de l’IA

En n’oubliant pas un enjeu spécifique à la justice, mais les professionnels du droit vous le rappellerons : conserver la symbolique même si l’on est à l’ère numérique. Le procès est un rite de passage de la conflictualité à l’apaisement, avec l’autorité de la société dans son ensemble – nécessite parfois du temps… et ne pas confondre aléa avec personnalisation.


Conclusion : Créer de la confiance entre la justice et les citoyens passera par des technologies numériques qui ont pleine conscience des enjeux particuliers locaux

Prenons l’exemple du laboratoire de Cyberjustice de Montréal : résultats remarquables en attirant les meilleurs talents venant du droit, des sciences sociales, du numérique. Pourquoi pas un laboratoire français voire européen, travaillant au plus près des besoins des citoyens ? Et des professions ?

Et si le service public se donnait les moyens de Hacker les hackers ! Se saisir des méthodes, de l’adaptabilité, de l’ouverture d’esprit ? C’est dans la proximité que nous devrions envisager l’avenir d’une justice numérique que nous nous devons d’inventer ensemble !


Retrouvez l’enregistrement vidéo sur Youtube en cliquant ici.

Chronique de l’émission “Intelligence artificielle et procès pénal”

Intelligence artificielle et procès pénal : l’illusion d’un destin ?

Invitée : Clementina Barbaro, chef d’unité au Conseil de l’Europe

Comme les bains de photographie argentique parviennent à révéler l’imperceptible d’une prise de vue, l’intelligence artificielle (IA) nous promet de dévoiler, par le formalisme mathématique et statistique, de l’information dans le canevas des données que nous produisons de plus en plus massivement.

Appliqué au champ de la justice pénale, plusieurs réalisations, déjà fonctionnelles aux Etats-Unis, visent à prévenir la commission d’infractions, notamment par des sortes de cartographies « prédictives », ou à évaluer les risques de réitération d’un individu.

La ville de Santa Cruz a été la première à se doter, en juillet 2011, d’un outil baptisé PredPol (pour predictive policing), qui vise à prédire où et quand un crime va se produire. Il n’y a aucun « precog » derrière tout cela, comme dans le film Minority Report, mais une base de données recensant les infractions passées et la formule magique de notre ère de l’IA : des modèles mathématiques et statistiques – secrets – qui projettent du passé un possible avenir. De telles solutions sont déjà testés dans de nombreux pays européens.

Nous pourrions prendre aussi l’exemple de l’algorithme COMPAS  qui est utilisé de manière effective dans certains États américains afin d’évaluer la dangerosité des individus en vue de leur éventuel placement en détention provisoire ou lors du prononcé d’une condamnation pénale. Cet algorithme n’a rien de fantaisiste : il s’appuie sur des études académiques en criminologie et en sociologie, sur différents modèles statistiques et le traitement d’un questionnaire de 137 entrées, relatif à la personne concernée et à son passé judiciaire sans aucune référence à son origine ethnique. Le système fournit ensuite au juge différents « scores » à un horizon de deux années : risque de récidive, risque de comportement violent et risque de non-comparution pour les situations de placement en détention provisoire.

Toutefois, en mai 2016, les journalistes de l’ONG ProPublica ont analysé l’efficacité des « prédictions » de  COMPAS sur une population de près de 10 000 individus arrêtés dans le comté de Broward (Floride) entre 2013 et 2014. Cette étude a révélé non seulement un taux relativement faible de « prédictions » justes (61%) mais, en procédant à l’analyse approfondie des « faux positifs », elle a par ailleurs établi que les populations afro-américaines étaient pondérées d’un plus fort risque de récidive que les populations blanches. Inversement, les populations blanches ayant effectivement récidivées avaient été deux fois plus classifiées comme étant en risque faible que les populations afro-américaines. 

En d’autres termes, sans inclure l’ethnie des individus ou avoir été spécifiquement conçu pour traiter cette caractéristique, le croisement des données (dont le lieu de résidence) a indirectement surpondéré cet aspect au détriment d’autres facteurs sociaux individuels (éducation, emploi, parcours familial) et a conduit à influencer les juges avec des indicateurs proprement discriminatoires.

Cette perspective, effrayante, est-elle une réalité fonctionnelle ou juste des épiphénomènes, un peu gonflé par la presse ?

Profitons de l’expertise de Clementina Barbaro, qui est chef d’unité au Conseil de l’Europe. Elle a notamment animé les derniers travaux de la CEPEJ sur l’IA dans les systèmes judiciaires et elle intervenue notamment au Sénat, en juin 2018, et dans plusieurs forums européens sur la question !


Ecoutez l’entretien avec Clementina Barbaro, chef d’unité au Conseil de l’Europe

2019, année de l’âge de raison pour l’intelligence artificielle ?

Le Comité des ministres du Conseil de l’Europe, organe exécutif de l’organisation internationale regroupant 47 États du continent européen, a adopté le 13 février 2019 une Déclaration dense, mais explicite, sur « les capacités de manipulation des processus algorithmiques »[1].

C’est la première fois qu’une organisation avec une telle autorité morale se positionne aussi explicitement sur les conséquences de la transformation numérique de notre société en soulignant « Les niveaux très subtils, subconscients et personnalisés de la persuasion algorithmique [qui] peuvent avoir des effets significatifs sur l’autonomie cognitive des citoyens et leur droit à se forger une opinion et à prendre des décisions indépendantes. »

La portée de cette Déclaration dépasse la seule question des interférences électorales telles que dénoncées par le scandale « Cambridge Analytica » et le réemploi de données personnelles pour tenter d’infléchir le cours de processus électoraux. Le Comité des Ministres « attire l’attention sur la menace grandissante qui émane des technologies numériques de pointe et qui remet en cause le droit des êtres humains à se forger une opinion et à prendre des décisions indépendamment des systèmes automatisés. »

C’est exactement ce qui était dénoncé par de nombreux auteurs (Cathy O’Neil, Soshana Zuboff, Antoinette Rouvroy, Dominique Cardon, Eric Sadin pour ne citer qu’eux) ces dernières années, sans que leurs critiques ne parviennent réellement à prendre corps dans le champ des politiques publiques. Bien au contraire, le grand renfort des plans de développement de l’intelligence artificielle (IA) un peu partout dans le monde, spécialement dans une Europe qui cherche à combler son retard par rapport à l’Amérique du Nord et à l’Asie, témoignait d’une vision assez décomplexée et dépolitisée du sujet. Pekka Ala-Pietilä, président du groupe d’expert de haut niveau de la Commission européenne, en charge de diriger la rédaction de lignes directrices éthiques de l’IA pour les 27/28 membres de l’Union européenne, s’était même déclaré il y a quelques mois hostile à la mise en œuvre d’une réglementation dans l’immédiat[2].

Cette Déclaration du Comité des ministres n’est pas la première expression d’une certaine réserve du Conseil de l’Europe, et des milieux académiques qui sont le principal vivier d’expertise de l’organisation. Le comité d’experts sur les intermédiaires internet (MSI-NET), la Commission européenne pour l’efficacité de la justice (CEPEJ), le Comité consultatif de la Convention 108 (protection des données), la Commission européenne contre le racisme et l’intolérance (ECRI), autant de secteurs qui ont déjà produits des études ou rapports alertant sur la surenchère – très artificielle – de l’industrie numérique pour promouvoir l’IA et les risques d’un développement sans conscience des limites des mathématiques et des statistiques pour représenter notre monde[3].

Un terrible constat a été d’ailleurs dressé par John Naughton en ce début d’année 2019 dans le Guardian : les journalistes n’arriveraient à prendre aucune distance critique avec les discours imposés par l’industrie numérique au sujet de l’IA et peineraient donc à réaliser un travail documenté, critique et approfondi[4]. Il cite au soutien de son affirmation les résultats d’une enquête menée par des chercheurs de l’université d’Oxford, qui ont analysé plus de 760 articles portant sur l’IA, publiés dans les 6 journaux majeurs du Royaume-Uni durant les 8 premiers mois de l’année 2018. Leurs travaux révèlent que cette couverture a été très largement dominée par les industriels eux-mêmes (nouveaux produits, annonces et initiatives prétendument liées à de l’IA) avec la complicité bien involontaire d’une certaine forme de « journalisme de masse », qui a de moins en moins de spécialistes[5]. Une couverture qui présente bien entendu très majoritairement l’IA comme une solution viable pour résoudre un grand nombre de problèmes. 

Or, il y a un véritable enjeu à sortir de la sorte de sidération collective sur ces développements technologiques, en faisant la part entre ce qui relève d’une gigantesque opération marketing de l’industrie numérique (et non d’une révolution en recherche fondamentale) des applications concrètes du traitement statistique de très grands jeux de données (big data). Bien entendu, il ne s’agit pas de sous-estimer les progrès réalisés avec l’apprentissage automatique dans des domaines extrêmement spécialisés, mais certainement pas d’ériger cette prétendue « IA », et le numérique en général, comme une solution universelle à tous nos maux[6]. C’est ce type de contre-discours qui imposerait aux entrepreneurs un vocabulaire précis et, peut-être, les conduirait à mieux assumer pour certains leur responsabilité sociétale en ne pas se hâtant pas de transformer dans la précipitation des résultats de recherche en application commerciale. Et c’est exactement ce à quoi semble vouloir s’employer le Conseil de l’Europe et peut constituer, en cette année 2019, un véritable tournant dans la promotion, parfois outrancière, de cette technologie.


[1]Decl(13/02/2019)1

[2]J. Delcker, « Europe’AI ethics chief : No rules yet, please”, Politico, 30 octobre 2018, https://www.politico.eu/article/pekka-ala-pietila-artificial-intelligence-europe-shouldnt-rush-to-regulate-ai-says-top-ethics-adviser/

[3]Voir le site internet du Conseil de l’Europe dédié à l’intelligence artificielle : http://www.coe.int/ai

[4]J. Naughton, Don’t believe the hype: the media are unwittingly selling us an AI fantasy, The Guardian, 13 janvier 2019.

[5]J. Scott Brennen, An Industry-Led Debate: How UK Media Cover Artificial Intelligence, University of Oxford, Reuters Institute for Study of Journalism, 13 décembre 2018.

[6]E. Morozov, Pour tout résoudre, cliquez ici, Fyp éditions, 2014.

Pourquoi la justice résiste-t-elle aux mathématiques ?

Texte et vidéo de la 2ème séance du séminaire  de l’IHEJ “Droit et mathématiques”
8 novembre 2018 (ENM Paris)

Retrouvez l’enregistrement vidéo de la 2ème séance du séminaire sur Youtube en cliquant ici.


 « Tout ce qui est neuf n’est pas nécessairement nouveau ». Cette pensée, prêtée à Paul Ricœur, semble parfaitement pouvoir tempérer les derniers développements de la transformation numérique que nous vivons, dont les tentatives de traiter des décisions de justice avec le formalisme mathématique à des fins prédictives. L’on connaît pourtant déjà bien les limites des tentatives de description des phénomènes sociaux par des équations : mais l’enchantement collectif opéré par le seul énoncé du terme, vague et marketing, d’« intelligence artificielle » (IA) semble avoir parfaitement occulté la réalité concrète de la technologie sous-jacente de cette dernière mode. L’apprentissage automatique (machine learning) et ses dérivés ne sont en fait qu’une manière de créer de l’information en donnant du sens à des données par diverses méthodes statistiques bien connues (comme la régression linéaire).

Dans ce contexte de confusion assez généralisée, les mathématiques seraient devenues pour Cathy O’Neil, scientifique des données (data scientist), une nouvelle « arme de destruction massive » car, malgré leur apparente neutralité, elles serviraient à des calculs algorithmiques si denses qu’il serait difficile, voire impossible, de rendre transparent les choix parfois arbitraires de leurs concepteurs[1]. Leur utilisation décomplexée serait même susceptible de renforcer de manière inédite les discriminations et les inégalités en « utilisant les peurs des personnes et leur confiance dans les mathématiques pour les empêcher de poser des questions[2] ».

Le constat ainsi posé est pertinent : ne devons-nous pas traiter prioritairement des questions de la difficulté à utiliser ce formalisme pour décrire les phénomènes sociaux et des changements profonds de gouvernance induits au lieu de spéculer de manière stérile sur des risques relevant de la pure science-fiction, notamment en ce qui concerne l’IA[3] ? Il y a donc un effort de définition à réaliser avant toute tentative d’analyse car sans vocabulaire clair, l’on ne peut construire de pensée claire (1). Appliqué aux décisions de justice, les modèles mathématiques peinent à rendre compte de l’entière réalité qu’ils prétendent décrire et ne peuvent se prêter qu’imparfaitement à des finalités prédictives ou actuarielles (2). La critique de la commercialisation hâtive de solutions d’IA aux potentialités parfois surévaluées risque par ailleurs de troubler la compréhension des réels enjeux de transformation numérique qui se jouent pourtant devant nos yeux (3).

1. Un formalisme mathématique performant pour des tâches très spécialisées

La croissance exponentielle de l’efficacité du traitement informatique des données depuis 2010 est totalement à distinguer des progrès considérables restant à réaliser par la recherche fondamentale pour parvenir à modéliser une intelligence aussi agile que l’intelligence humaine. Certains avaient cru pouvoir réduire celle-ci à « 10 millions de règles[4]  » : des chercheurs comme Yann LeCun affirment aujourd’hui que l’IA se heurte en réalité à une bonne représentation du monde, qui est une question « fondamentale scientifique et mathématique, pas une question de technologie[5] ». Une dichotomie est donc parfois réalisée entre l’« IA forte » de science-fiction (généraliste, auto-apprenante et adaptable de manière autonome à des contextes tout à fait différents), et les IA « faibles » ou « modérées » actuelles, ultra-spécialisées et non-adaptables de manière totalement autonome à des changements complets de paradigme[6]. Cette distinction ne clarifie toutefois pas ce que l’on entend par « intelligence » et alimente nombre de malentendus et de fantasmes, entretenus et véhiculés par les médias, qui ne parviennent pas toujours à décrypter les discours commerciaux et à vulgariser des concepts en jeu[7].

Commençons par rappeler que les mécanismes actuellement mis en œuvre sous le terme très plastique « d’IA » sont pluriels et connus pour la plupart de longue date[8]. Ce qui est nouveau, en revanche, c’est leur synergie avec d’autres technologies (blockchains, biotechnologies, nanotechnologies, sciences cognitives) ainsi que leur efficacité de traitement rendues possibles par la performance des processeurs actuels (notamment des cartes graphiques, à même d’exécuter avec performances des méthodes dites d’apprentissage, nous y reviendrons) et la disponibilité d’une quantité considérable de données (big data) depuis quelques années.

Pour être plus précis, l’apprentissage automatique (sous ses diverses formes) a contourné de manière extrêmement astucieuse les limites des anciens systèmes experts, qui exigeaient de programmer a priori des règles logiques de traitement de données pour imiter un raisonnement. Les approches actuelles sont plus inductives : l’idée est de réunir un nombre suffisant de données d’entrée et de résultats attendus en sortie afin de rechercher de manière (plus ou moins) automatisée les règles pouvant les lier. En d’autres termes, cette recherche automatisée (qui est ce que l’on entend par apprentissage) est une représentation mathématique et statistique d’un environnement donné. L’objectif pour les ingénieurs n’est pas prioritairement de comprendre les règles ou les modèles automatiquement construits par l’ordinateur mais de s’assurer que la machine arrive à reproduire de mieux en mieux les résultats attendus, si nécessaire avec toujours plus de données par des phases successives ou continues de recherche.

Pour reformuler les concepts esquissés :

•           l’IA n’est pas un objet unique et homogène : il s’agit en réalité d’une discipline très large aux contours mouvants, assemblage de sciences et techniques (mathématiques, statistiques, probabilités, neurobiologie, informatique) ; le terme, auparavant confondu avec « systèmes experts », est maintenant généralement confondu avec l’apprentissage automatique (machine learning), dont il est principalement question dans la plupart des développements commerciaux actuels ;

•           l’apprentissage automatique fonctionne par une approche inductive très différente de la cognition humaine : l’idée est d’associer de manière plus ou moins automatisée un ensemble d’observations (entrées) à un ensemble de résultats possibles (sorties) à l’aide de diverses propriétés préconfigurées afin de détecter des corrélations (susceptibles d’ailleurs être fallacieuses et non représentatives d’une causalité[9]) ;

•           la fiabilité du modèle construit sur cette base dépend fortement de la qualité des données utilisées : les biais présents dans les données seront inéluctablement reproduits dans les modèles qui, sans correctif, ne feront que les renforcer.

Le concept d’IA est donc globalement à démystifier si l’on s’en tient à une interprétation stricte du mot « intelligence ». Nous avons en réalité affaire à des systèmes computationnels complexes et non à des répliques (même sommaires) du cerveau humain (qui inclut des processus perceptifs, l’apprentissage, l’auto-organisation, l’adaptation). Prenons l’une de sous-classes de l’apprentissage automatique, les réseaux de neurones : si leur conception est bien inspirée des neurones biologiques, leur fonctionnement est en réalité fortement optimisé par des méthodes probabilistes dites bayésiennes. En d’autres termes, ces réseaux sont aussi comparables à de réels neurones que les ailes d’un avion sont similaires à celles d’un oiseau[10].

Utilisé dans des environnements fermés, comme le jeu de go ou avec des données quantifiables sans aucune ambiguïté, les résultats peuvent être tout à fait exaltants au prix d’un très fort (et coûteux) investissement… humain[11]. Mais il serait très hâtif d’interpréter ces réussites dans des champs très étroits comme les prémisses de l’avènement d’une IA générale, nouveau Saint Graal des chercheurs[12] ni comme aisément transférables telles quelles pour d’autres applications. Exécuté dans des environnements ouverts et moins facilement quantifiables, ce formalisme est plus difficilement opérant : ce constat est particulièrement vrai lorsque l’on tente de mesurer des phénomènes sociaux où « il est bien plus difficile de retrouver une relation stable » que dans les sciences naturelles, riches de « faits têtus que l’on ne peut éliminer d’un revers de main »[13].

2. Un formalisme mathématique insuffisant à traduire fidèlement la mémoire de la justice 

Malgré ce simple constat, il n’aura toutefois pas fallu attendre très longtemps pour que des entrepreneurs tirent profit de l’engouement suscité par l’apprentissage automatique pour développer des solutions commerciales dans de très nombreux secteurs d’activité (commerces, transports, industries, urbanisme, médecine, …) à la recherche de nouveaux marchés, sans réelle conscience de la complexité de certains objets traités[14]. Ainsi, le droit a été une cible de choix, l’apparente logique du raisonnement juridique (dont le syllogisme des décisions judiciaires) conduisant les mathématiciens à penser qu’il y avait là matière à exploitation. Conjugué à un besoin (celui de rendre la réponse judiciaire plus prévisible) et à quelques idées reçues en découlant (tel que le fait que « l’aléa judiciaire » ne serait le résultat que des biais humains des juges et non d’un effort d’individualisation des décisions), des investisseurs, comme les assureurs, ont sponsorisé les coûteux développements de solutions d’apprentissage automatique avec des décisions judiciaires[15].

Quelle que soit la dénomination commerciale (justice prédictive, quantitative ou actuarielle), les applications développées recouvrent une même et unique réalité qui consiste à établir, pour des contentieux chiffrables comme la réparation du préjudice corporel, le droit du travail ou le divorce, divers types de probabilités sur la possible issue d’un litige en traitant non un récit brut mais des faits déjà qualifiés juridiquement. La construction de modèles mathématiques va donc s’appuyer sur une matière première, les décisions de justice déjà rendues dans ces types de contentieux, et l’apprentissage automatique pour découvrir des corrélations. Concrètement la machine va rechercher dans divers paramètres identifiés par les concepteurs (comme la durée du mariage, la situation professionnelle, la disparité de situation patrimoniale, l’âge et l’état de santé des parties pour les prestations compensatoires) les possibles liens avec les résultats prononcés par le tribunal (le montant de la prestation prononcée en fonction de ces critères). L’application de cette démarche au contenu d’un jugement exige toutefois une extrême rigueur, les corrélations d’ordre linguistique découvertes dans les décisions étant loin de pouvoir être interprétées de manière irréfutable comme des rapports de cause à effet[16].

Trois critiques principales sont à formuler à l’encontre de cette démarche de traitement de données issues de décisions judiciaires :

Ce formalisme, tout d’abord, ne permet pas de révéler la complexité des raisonnements juridiques opérés[17] – Il doit en effet être rappelé, comme l’a mis en lumière la théorie du droit, que le raisonnement judiciaire est surtout affaire d’interprétation. C’est que le fameux syllogisme judiciaire est plus un mode de présentation du raisonnement juridique que sa traduction logique, il ne rend pas compte de l’intégralité du raisonnement tenu par le juge, lequel est ponctué d’une multitude de choix discrétionnaires, non formalisables a priori. La cohérence d’ensemble des décisions de justice n’est jamais assurée et relèverait davantage d’une mise en récit a posteriori, que d’une description stricte de l’intégralité de ces décisions[18]. Or, l’apprentissage automatique est inopérant à effectuer ce travail d’interprétation, les concepteurs espérant tout au plus que la détection de régularité dans les contextes lexicaux réussisse à reproduire en sortie les mêmes effets que le processus décisionnel réel ayant produit ces données.

Un examen des travaux de l’University College of London, laquelle a annoncé être parvenue catégoriser correctement 79 % des décisions de la Cour européenne des droits de l’homme (violation ou non violation), confirme bien ce diagnostic[19]. Ces chercheurs n’ont en réalité été capables de ne produire une probabilité qu’à partir d’un matériel déjà traité juridiquement, qui renseignerait davantage sur la pratique professionnelle des juristes du greffe de la Cour (qui utilisent parfois des paragraphes pré-rédigés en fonction du traitement et de l’issue donnés à l’affaire) que sur le sens de la réflexion juridique[20]. Miroir de la représentation graphique d’un échantillon de décision, elle parvient au mieux à grouper des documents respectant le même formalisme mais peinerait sans nul doute très fortement à partir d’un récit brut d’un futur requérant devant la Cour de Strasbourg. Ces résultats sont surtout totalement étrangers à la question de la conformité en droit de telle ou telle solution, dès lors que ces calculs de probabilités ne peuvent pas discriminer entre les raisonnements juridiquement valides et ceux qui ne le sont pas.

Enfin, de tels calculs probabilistes ne sauraient en aucun cas épuiser le sens de la loi, comme l’a montré la question de l’utilisation des barèmes judiciaires : si tant est que ces barèmes aient toujours une pertinence statistique, ils ne sauraient, du seul fait de leur existence, se substituer à la loi elle-même, en réduisant notamment la marge d’interprétation que celle-ci offre nécessairement au juge[21].

Ce formalisme seul ne permet pas, par ailleurs, d’expliciter le comportement des juges[22] – L’autre grand mythe véhiculé par le discours de promotion des outils issus de l’IA serait leur capacité à expliquer les décisions de justice. Certaines legaltech ont en effet affirmé pouvoir identifier d’éventuels biais dus à la personne des magistrats, de nature à nourrir des suspicions de partialité. L’exploitation des noms des présidents de formation de jugement des juridictions administratives en open data avait permis un temps de construire un indicateur nominatif du taux de rejet de recours contre les obligations de quitter le territoire français[23]. Il n’est dès lors pas étonnant que l’une des principales questions qui animent encore le débat autour de ces nouveaux outils porte sur l’accès au nom des professionnels dans les décisions judiciaires ouvertes, notamment des magistrats[24]. Mais, peut-on réellement parvenir à éclairer le comportement des juges sur la base d’un traitement algorithmique des occurrences de leurs noms dans certaines décisions de justice ?

D’un point de vue scientifique, expliquer un phénomène ou, pour ce qui nous concerne, un comportement humain (celui d’un juge), revient à déterminer les mécanismes de causalité ayant conduit à ce comportement en présence d’un certain nombre de données contextuelles. Cela nécessite la constitution préalable d’un cadre interprétatif, constitué par les hypothèses ou points de vue adoptés par les différentes disciplines des sciences sociales[25].

Rappelons que l’IA bâti des modèles en tentant de révéler des corrélations dissimulées dans un grand nombre de données. Or, la seule corrélation statistique entre deux événements est insuffisante pour expliquer les facteurs réellement causatifs[26]. Appliqué au droit et aux décisions judiciaires, on mesure immédiatement ce qu’il peut y avoir de scientifiquement erroné et d’idéologique dans l’ambition de rendre objective la décision des juges grâce à des algorithmes. Fournir une véritable explication d’un jugement nécessiterait une analyse beaucoup plus fine des données de chaque affaire et ne saurait naître spontanément d’une masse de liens lexicaux dans lesquels figure le nom d’un magistrat. Par exemple, le fait qu’un juge aux affaires familiales fixe statistiquement davantage la résidence habituelle d’un enfant chez la mère dans un ressort déterminé ne traduit pas nécessairement un parti-pris de ce magistrat en faveur des femmes, mais s’explique davantage par l’existence de facteurs sociaux-économiques et culturels propres à la population de sa juridiction. De même, il paraît difficile d’attribuer une tendance décisionnelle à une formation juridictionnelle collégiale sur la seule base du nom de son président.

Les risques d’explications faussées des décisions de justice s’avèrent donc extrêmement élevés sur la base des seuls calculs probabilistes opérés. L’espoir de voir émerger du traitement par les IA une information de nature à produire une « norme issue du nombre » imposant aux juges un « effort renouvelé de justification » pour expliquer l’écart à la moyenne doit donc être largement tempéré au vu de la compréhension technique de la mécanique produisant cette moyenne[27]. Surtout, la seule valeur statistique des résultats obtenus demeure bien souvent hautement questionnable en l’absence d’une véritable maîtrise du périmètre des données prospectées et de l’effet « boîte noire » de certains algorithmes tels que l’apprentissage profond[28] (deep learning). De plus, comme l’a montré l’émergence des grilles de barèmes judiciaires, la tentation peut être grande pour les concepteurs de ces outils de se livrer à du data-snooping, c’est-à-dire à ne sélectionner en amont que des données de manière à ce qu’elles puissent être significatives au regard de grilles d’analyse prédéterminées, par exemple en éludant de l’échantillon des décisions se prêtant mal à des corrélations de séquences linguistiques (des décisions sans exposé du litige par exemple)[29].

Plus grave encore, les modèles d’apprentissage peuvent potentiellement reproduire et aggraver les discriminations[30] – Les différentes techniques de l’apprentissage automatique paraissent en effet en elles-mêmes neutres en termes de valeurs sociales : que l’apprentissage soit supervisé ou non, avec ou sans renforcement, s’appuyant sur des machines à support de vecteur ou des réseaux de neurones profonds, les sciences fondamentales qui les animent sont avant tout un formalisme. En revanche, l’utilisation de ce formalisme avec une méthode et des données biaisées entraînera systématiquement des résultats biaisés.

Prenons l’exemple de l’algorithme COMPAS[31] qui est utilisé de manière effective dans certains États américains afin d’évaluer la dangerosité des individus en vue de leur éventuel placement en détention provisoire ou lors du prononcé d’une condamnation pénale.  Cet algorithme s’appuie sur des études académiques en criminologie et en sociologie, sur différents modèles statistiques et le traitement d’un questionnaire de 137 entrées, relatif à la personne concernée et à son passé judiciaire sans aucune référence à son origine ethnique[32]. Le système fournit ensuite au juge différents « scores » à un horizon de deux années : risque de récidive, risque de comportement violent et risque de non-comparution pour les situations de placement en détention provisoire. La démarche apparaît a priori pluridisciplinaire et fondée scientifiquement.

Toutefois, en mai 2016, les journalistes de l’ONG ProPublica ont analysé l’efficacité des « prédictions » de  COMPAS sur une population de près de 10 000 individus arrêtés dans le comté de Broward (Floride) entre 2013 et 2014[33]. Cette étude a révélé non seulement un taux relativement faible de « prédictions » justes (61%) mais, en procédant à l’analyse approfondie des « faux positifs », elle a par ailleurs établi que les populations afro-américaines étaient pondérées d’un plus fort risque de récidive que les populations blanches. Inversement, les populations blanches ayant effectivement récidivées avaient été deux fois plus classifiées comme étant en risque faible que les populations afro-américaines. En d’autres termes, sans inclure l’ethnie des individus ou avoir été spécifiquement conçu pour traiter cette caractéristique, le croisement des données (dont le lieu de résidence) a indirectement surpondéré cet aspect au détriment d’autres facteurs sociaux individuels (éducation, emploi, parcours familial) et a conduit à influencer les juges avec des indicateurs proprement discriminatoires.

En reprenant du champ, on pourrait considérer que la problématique ainsi posée pour la matière pénale est singulière. Elle reste en réalité la même avec des affaires civiles, administratives ou commerciales : la nature de la matière contentieuse est en effet étrangère à la présence de biais dans la méthode et les données. Il serait intéressant par exemple d’examiner si, pour une série de prestations compensatoires dans lesquelles la situation maritale et économique est objectivement équivalente, les montants « prédits » par de tels algorithmes apparaissent pondérés différemment selon le lieu de résidence des parties. Dans la positive, quels critères, explicites ou sous-jacents, ont pu avoir une influence ? Sans explication ni transparence sur cet état de fait, cela revient à laisser une « boite noire » influer de manière tout à fait discrétionnaire sur l’issue d’un contentieux et à reproduire des inégalités.

3. Un formalisme mathématique fondateur d’une société gouvernée par les données

Des apprentissages automatiques n’ayant pas conscience de la complexité de la matière traitée (l’application de la loi et les phénomènes sociaux) risquent donc de créer plus de problèmes qu’ils prétendent apporter de solution. Loin de pouvoir offrir « une large collégialité et une indépendance davantage partagée[34] », ils sont susceptibles en réalité de cristalliser la jurisprudence autours de calculs biaisés n’étant représentatifs que d’eux-mêmes. Il est vrai qu’il semble difficile de se départir de la « troublante vocation » de certains systèmes computationnels : énoncer la vérité. Pour Eric Sadin, le numérique s’érigerait aujourd’hui comme « une puissance alèthéique, destinée à révéler l’alètheia, à savoir la vérité, dans le sens défini par la philosophie grecque antique, entendue comme la manifestation de la réalité des phénomènes à l’opposé des apparences[35] ».

Le grand emballement autour des potentialités, réelles ou fantasmées, de l’apprentissage automatique est donc hautement critiquable du fait de son manque patent de maturité mais, surtout, du fait de ce nouveau régime de vérité qu’il impose au mépris de ce qui devrait être un travail rigoureux d’analyse des résultats de ces outils, qui ne sont que le reflet imparfait et orienté d’une réalité qu’il s’agirait avant tout de tenter de décrire et de comprendre de manière pluridisciplinaire. Les efforts financiers et humains actuels des industries numériques se concentrent à bâtir hâtivement des cathédrales algorithmiques complexes dans l’espoir de lever, avant les autres concurrents entraînés dans la même course effrénée, des fonds avec une promesse : révéler une prétendue vérité naturelle et immanente en la saisissant dans les corrélations de l’apprentissage automatique. Or il s’agit de colosses dispendieux aux fondations extrêmement fragiles en ce qui concerne les décisions de justice : les systèmes juridiques restent très ouverts et un revirement peut invalider des décennies de patiente construction jurisprudentielle. Cette instabilité pose un problème bien fondamental à des algorithmes qui se construisent, avant tout, sur des statistiques d’événements passés.

L’on en vient à ce stade au principal argument des techno-évangélistes qui entendent alors faire taire toute critique de l’ancien monde : l’on ne pourrait (et l’on ne devrait) concevoir l’évolution de demain en restant figés dans nos référentiels actuels. Et il semble que l’on ne puisse pas leur donner entièrement tort, mais peut-être pas pour les raisons qu’ils envisagent. La transformation de fond réellement à l’œuvre, puisant dans un mélange surprenant d’idéologies néolibérales et libertarienne, est bien de substituer un référentiel à un autre : l’idée est de remplacer la règle de droit par d’autres mécanismes de régulation censés être plus efficaces pour assurer le fonctionnement de notre société. Et c’est bien là que réside le défi majeur de notre temps : l’IA n’est en réalité qu’un avatar, parmi d’autres, d’une ambition bien plus globale qui pose un défi démocratique sans précédent : une société gouvernée par les données (data driven society), se  substituant progressivement à l’Etat de droit que nous avons bâti ces derniers siècles.

La loi, bien qu’imparfaite, est avant tout l’expression collective d’un projet de société, miroir des priorités qu’un peuple souhaite se donner, et dont la valeur et l’intérêt sont discutées entre des représentants élus à même de composer un équilibre entre des intérêts contradictoires. L’IA, et les algorithmes en général, nous imposent, par un formalisme scientifique aux apparences neutres, une nouvelle rationalité qui est en réalité… celle de leurs concepteurs. En d’autres termes, la démocratie se retrouve confisquée par une nouvelle forme d’aristocratie, numérique, qui paraît se suffire à elle-même pour définir des notions aussi simples que le bien ou le mal[36]. Ce projet n’est au final pas très éloigné de celui de la physique sociale imaginé par Adolphe Quételet : le mathématicien belge du XIXème siècle envisageait l’homme comme libre mais il estimait que « ce qu’il apporte de perturbation dans les lois de la nature ne peut nullement altérer ces lois, du moins d’une manière permanente ». En posant ainsi les jalons d’une analyse systématique des phénomènes sociaux par la statistique, il ambitionnait de faire émerger un projet aux accents parfaitement totalitaires : l’élaboration d’une « statistique morale » glorifiant l’axe d’un homme moyen autour duquel tout homme aurait dû se référer.

Une lecture politique de la transformation numérique paraît donc aujourd’hui impérative afin de clarifier les réels défis posés par le numérique dans les débats publics et l’on comprend bien que ce ne sont pas les outils qui sont en cause mais bien ce que certains prétendent en faire. L’encadrement dès lors apparaît indispensable, qu’il s’agisse en premier temps de soft law ou de modes bien plus contraignants, à l’image du RGPD[37]. Cette construction devra toutefois s’effectuer consciente d’une autre réalité, tempérant peut-être l’urgence : l’écart qui existe encore entre les ambitions de l’IA dans le domaine de la justice et ses réalisations, très sectorielles et non généralisables, qui nécessitent des moyens humains de très haut niveau technique et des investissements financiers relativement substantiels. Meilleure alliée des discours idéologiques précédemment décrits, l’IA risque donc de se confronter plus rapidement que prévu à sa réelle rentabilité. Dans la deuxième édition de son rapport sur l’IA dans les entreprises, l’institut Deloitte révèle que les revenus issus de l’IA semblent extrêmement disparates en fonction des secteurs d’activité[38]. Si les entreprises technologiques pionnières semblent engranger d’importants bénéfices (plus de 20%), celles relevant des sciences naturelles et de la santé est bien plus modeste (13%). Sur le nouveau « marché du droit », la viabilité de modèles économiques reste encore hautement questionnable pour les investisseurs et les legaltech, qui ont obtenu des levées de fonds relativement considérables, devraient rester très attentives au contenu de leurs promesses… dont on pourrait prédire, au regard des présents développements, que certaines ont une assez forte probabilité de n’être jamais au rendez-vous-même en ouvrant le robinet de l’open data.


Retrouvez l’enregistrement vidéo de la 2ème séance du séminaire sur Youtube en cliquant ici.


Notes

[1] Cathy O’Neil, Weapons of Math Destruction, Crown, 2016.

[2] M. Chalabi, Weapons of Math Destruction: Cathy O’Neil adds up the damage of algorithms, The Guardian, 27 octobre 2016. https://www.theguardian.com/books/2016/oct/27/cathy-oneil-weapons-of-math-destruction-algorithms-big-data

[3] A ce titre les craintes de destructions de l’humanité par l’IA caractérisent assez bien cette forme d’alarmisme. Voir par exemple S. Hawking, S. Russel, M. Tegmark, F.Wilczek: ‘Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?’, The Independent,1 mai 2014 – https://www.independent.co.uk/news/science/stephen-hawking-transcendence-looks-at-the-implications-of-artificial-intelligence-but-are-we-taking-9313474.html

[4] Douglas Lenat, chercheur en intelligence artificielle et directeur de la société Cycorp

[5] Yann LeCun, Qu’est-ce que l’intelligence artificielle, Collège de France – Consulté sur le site du collège de France le 16 juin 2017 : https://www.college-de-france.fr/media/yann-lecun/UPL4485925235409209505_Intelligence_Artificielle______Y._LeCun.pdf

[6] Distinction notamment réalisée par John Searle dans les années 1980, où il différencie un système qui aurait un esprit (au sens philosophique) et pourrait produire de la pensée d’un système qui ne peut qu’agir (même s’il donne l’impression de pouvoir penser)

[7] Voir par exemple cet article de 20 minutes, qui relaie la communication d’une société éditrice de VeriPol sans aucune perspective critique : Espagne : la police utilise une intelligence artificielle pour débusquer les plaintes mensongères, 30 octobre 2018 – https://www.20minutes.fr/high-tech/2363327-20181030-espagne-police-utilise-intelligence-artificielle-debusquer-plaintes-mensongeres%E2%80%AC?fbclid=IwAR2SjlJxGdH0h0HosVCtCi3IZZcXl-zl6-tATip5axsfTnPWOcuw16zJ7OA

[8] Le théorème de Thomas Bayes, étendus par Pierre-Simon Laplace, date du XVIIIème  siècle ; les bases des réseaux neuronaux ont été développées dans les années 1940 par Warren McCulloch and Walter Pitts (Created a computational model for neural networks based on mathematics and algorithms called threshold logic, 1943)

[9] C. S. Calude, G. Longo, Le déluge des corrélations fallacieuses dans le big data, dans La toile que nous voulons – Le web néguentropique, B. Stiegler (dir.) : FYP éd., 2017, p. 156.

[10] S. Sermondadaz, Yann LeCun : L’intelligence artificielle a moins de sens commun qu’un rat, Sciences & Avenir, 24 janvier 2018 – https://www.sciencesetavenir.fr/high-tech/intelligence-artificielle/selon-yann-lecun-l-intelligence-artificielle-a-20-ans-pour-faire-ses-preuves_120121

[11] Voir par exemple AlphaGo Chronicles qui décrit la manière dont la société Deepmind est parvenue à entraîner une IA à battre le meilleur joueur humain de go en 2016. La conception d’un tel outil n’est pas résumée à la simple entrée de données dans un ordinateur, mais à justifier la mobilisation d’une équipe entière d’ingénieurs pour concevoir, tester et calibrer plusieurs couches différentes d’algorithmes. https://www.youtube.com/watch?v=8tq1C8spV_g

[12] L. Butterfield, Leading academics reveal: what are we getting wrong with AI?, Oxford University, 15 octobre 2018 – https://www.research.ox.ac.uk/Article/2018-10-15-leading-academics-reveal-what-are-we-getting-wrong-about-ai?fbclid=IwAR10KJv2UhcHPQQeKhDGJKL0XYsqpcs6Sev7HDLMvGRBuUTf6y7UQSkjZ5k

[13] P. Jensen, Pourquoi la société ne se laisse pas mettre en équation : Editions du Seuil, 2018.

[14] Y. Katz, Manufacturing an Artificial Intelligence Revolution, SSRN, 17 novembre 2017 https://ssrn.com/abstract=3078224 ou http://dx.doi.org/10.2139/ssrn.3078224

[15] Cet objectif justifie d’ailleurs l’intense lobbying opéré par les éditeurs juridiques et les legaltech sur l’ouverture totale des données judiciaires, prévue par les articles 20 et 21 de la loi pour une République numérique du 7 octobre 2016 et dont les décrets d’application restent à paraître.

[16] Sur la confusion entre corrélation et causalité, voir notamment D. Cardon, À quoi servent les algorithmes. Nos vies à l’heure des big data : Seuil, La république des idées, 2015.

[17] Les concepts ici présentés sont développés de manière plus substantielle dans Y. Meneceur,Quel avenir pour une justice prédictive : JCP G 2018, doctr.190.

[18] V. la célèbre figure du roman à la chaîne proposée par Ronald Dworkin (L’empire du droit, 1986, trad. française 1994 : PUF, coll. Recherches politiques, p. 251-252).

[19] Travaux sur un échantillon de 584 décisions de la Cour européenne des droits de l’Homme : N. Aletras, D. Tsarapatsanis, D. Preoţiuc-Pietro, V. Lampos, Predicting judicial decisions of the European Court of Human Rights : a Natural Language Processing perspective, 24 octobre 2016 – https://peerj.com/articles/cs-93/

[20] Précisions en ce sens que le taux de reproduction des décisions descend à 62% lorsque l’apprentissage se concentre sur la partie de raisonnement juridique d’application de la Convention (jeter une pièce en l’air offre approximativement 50% de tomber sur une face déterminée).

[21] C’est ce qu’a rappelé la Cour de cassation à propos des barèmes de pensions alimentaires (Cass. 1re civ., 23 oct. 2013, n° 12-25.301 : JurisData n° 2013-023208).

[22] Les concepts ici présentés ont également été développés plus longuement dans Y. Meneceur,Quel avenir pour une justice prédictive, op.cit.

[23] M. Benesty, L’impartialité des juges mise à mal par l’intelligence artificielle in Village de la justice, Tribunes et point de vue du 24 mars 2016 ; www.village-justice.com/articles/impartialite-certains-juges-mise,21760.html – le contenu du site Supralegem.fr n’est désormais plus accessible et l’adresse redirige vers dalloz.fr

[24] Mission d’étude et de préfiguration confiée au professeur Loïc Cadiet le 9 mai 2017 par le ministre de la Justice, dont les conclusions ont été rendues le 9 janvier 2018 ; www.justice.gouv.fr/publication/open_data_rapport.pdf (page consultée le 20 janvier 2018. – S’agissant des avocats, des problématiques singulières (possibilité de classement notamment) justifient également un certain nombre d’interrogations.

[25] Sur cette question, V. N. Regis, Juger, est-ce interpréter ? : Cahiers Philosophiques, Canopé éd., 2016, n° 147, p. 36-37.

[26] Voir le site internet Spurious Correlation qui recense un grand nombre de corrélations fallacieuses, tel qu’un taux de correspondance à plus de 99% entre 2000 et 2009 entre le nombre divorces dans l’Etat du Maine et la consommation de margarine par habitant – http://tylervigen.com/spurious-correlations

[27] É. Buat-Ménard et P. Giambiasi, La mémoire numérique des décisions judiciaires : D. 2017, p. 1483.

[28] Voir I. Daubechies, Machine Learning Works Great – Mathematicians Just Don’t Know Why, Wired, 12 décembre 2015 – https://www.wired.com/2015/12/machine-learning-works-greatmathematicians-just-dont-know-why/ 

[29] Dans cette logique, voir également la critique des statistiques infér entielles pour conclure sur le résultat d’un test statistique – R. Nuzzo, La malédiction de la valeur-p, Pour la Science, 10 janvier 2018.

[30] Ces développements sont approfondis dans Y. Meneceur, Les systèmes judiciaires européens à l’épreuve de l’intelligence artificielle, Revue de la prospective et de l’innovation, octobre 2018, pp11-16.

[31] Correctional Offender Management Profiling for Alternative Sanctions (Profilage des délinquants correctionnels pour des sanctions alternatives) est un algorithme développé par la société privée Equivant (ex-Northpointe) : http://www.equivant.com/solutions/inmate-classification.

[32] Practitioner’s Guide to COMPAS Core, Northpointe, 2015. http://www.northpointeinc.com/downloads/compas/Practitioners-Guide-COMPAS-Core-_031915.pdf

[33] L’étude et sa méthodologie est accessible en ligne : https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

[34] B. Louvel, Discours d’ouverture du colloque « La jurisprudence dans le mouvement de l’open data », 14 octobre 2016. https://www.courdecassation.fr/IMG///Open%20data,%20par%20B%20Louvel.pdf

[35] E. Sadin, Intelligence artificielle : résistons à la « main invisible automatisée », Le Monde, 22 février 2018.

[36] Le slogan de Google a été jusqu’en 2018 « don’t be evil » (il a été retiré depuis du code de bonne conduite de l’entreprise) ; Microsoft encourage les leaders mondiaux depuis la fin de l’année à la paix numérique (digital peace)

[37] Il ne sera pas développé ici la question de la régulation, voir à ce sujet Y. Meneceur, Les systèmes judiciaires européens à l’épreuve de l’intelligence artificielle, op.cit..

[38] Deloitte Insights, State of AI in the Enterprise, 2nd Edition, 22 octobre 2018. https://www2.deloitte.com/insights/us/en/focus/cognitive-technologies/state-of-ai-and-intelligent-automation-in-business-survey.html

Chronique de l’émission “Intelligence artificielle et intelligence naturelle”

Intelligence artificielle et intelligence naturelle

Invitée : Daniela Piana, professeure de sciences politiques à l’Université de Bologne

Je ne sais pas pour vous, mais cette année j’ai eu l’impression que le sujet de l’intelligence artificielle (l’IA pour les intimes) était à peu près partout. Comme si accoler ces mots à n’importe quel thème était en mesure de le colorer d’une teinte indélébile de modernité. 

Il faut dire que les promesses sont grandes et que la littérature de science-fiction nous a déjà bien acculturé à l’idée que nous sommes sur le point de concevoir des systèmes computationnels aux capacités égalant, surpassant même leurs concepteurs. Or, comme toujours, ce n’est pas du monstre à la Frankenstein dont il faut se méfier, mais plutôt de leurs concepteurs.

L’IA tout d’abord paraît être devenue une réelle marque commerciale. C’est bien là le génie du marketing que de faire rêver : parler d’algorithmes en capacité de produire de représentations statistiques d’un environnement donné n’est en fait pas très sexy (et je vous ai certainement déjà perdu en l’énonçant). Parler d’« apprentissage » le devient plus : en cédant déjà à un tout petit peu d’anthropomorphisme, l’attention s’arrête. On se dirait ainsi que le « machine learning » (apprentissage automatique) singerait les modes d’apprentissage humain : que nenni ! C’est de la corrélation sur des jeux massifs de données ! Et Yann LeCun, célèbre pionnier de l’apprentissage profond (deep learning) nous dit bien que les « neurones formels » de ses machines sont aussi proches d’un neurone biologique que l’aile d’un oiseau est proche d’une aile d’avion.

Et il convient donc d’arriver à rendre objectif ce que peuvent réaliser les mathématiques et les statistiques. Dans des environnements dits « fermés » (comme le jeu de go) les possibilités arrivent à surpasser l’humain : en revanche, comme le souligne Pablo Jensen dans son livre « Pourquoi ne peut-on pas mettre la société en équation », il est beaucoup plus difficile de trouver des relations stables dans les phénomènes sociaux.

Une fois cette clé de compréhension acquise, comment comprendre la fascination exercée par l’IA. Ce ne sont pas les médias qui vont nous y aider et ils continuent même d’une certaine manière à entretenir le trouble : à titre d’exemple l’on pourrait citer un point hebdomadaire sur France Info qui relate les derniers développements de cette technologie. Il y a quelques semaines, le présentateur évoquait de manière accrocheuse que les IA parvenaient maintenant à « détecter les mensonges » dans les plaintes adressées aux policiers à 80%. Assez rapidement, l’annonce s’est dégonflée puisqu’en fait de détection de mensonge, il s’agit de probabilités sur un récit écrit qui réaliserait notamment une corrélation entre des faits trop précisément décrits et des propos mensongers. Cet outil ne serait en réalité déployé qu’à une échelle de test dans une unité de police en Espagne et le discours relayé réunit les arguments commerciaux de la société privée ayant conçu le produit. Et passons sur l’exemple suivant donné par ce journaliste, de garde-frontière dans des aéroports hongrois et lettons, qui repérerait les visages de menteurs.

Dans ce grand n’importe quoi mélangeant corrélation et causalité, probabilité et vérité, il y a un besoin urgent de clarification. L’intelligence artificielle ne serait en réalité qu’un extraordinaire concept marketing labellisé par John Mc Carthy dans les années 50, très éloigné d’une intelligence naturelle.

Max Headroom

La musique d’Art of Noise que vous entendez mettait en scène le premier présentateur conçu en animation en 3D dans le milieu des années 80. Il était baptisé Max Headroom, et, bien que synthétique, il était en réalité animé par les mouvements du visage de l’acteur Matt Frewer.

L’autonomie de ce personnage synthétique n’était donc qu’une illusion… Daniela Piana, vous allez nous aider à y voir plus clair de ce qui distingue cette intelligence dite « artificielle » de ce que vous qualifiez d’ « intelligence naturelle ». Particulièrement si ces assemblages d’algorithmes sont en mesure de mettre au défi les professions du droit, tels que les avocats ou les magistrats.


Ecoutez l’entretien avec Daniela Piana, professeure de sciences politiques à l’Université de Bologne

Chronique de l’émission “Des données réellement à l’abri ?”

Des données réellement à l’abri ?

Invitée : Sophie Kwasny, chef de l’unité de protection des données du Conseil de l’Europe

Et si l’on croisait tout ou partie des fichiers administratifs français pour assurer une meilleure efficacité ? Cette idée (un brin totalitaire) n’est pas contemporaine mais date de 1973 avec un projet, sobrement intitulé par le ministère de l’Intérieur à l’époque SAFARI.

Révélé en 1974 par un article du Monde, ce « système informatisé pour les fichiers administratifs et le répertoire des individus » planifiait d’interconnecter tous les fichiers en s’appuyant sur un identifiant unique déjà existant pour tous : le numéro INSEE, utilisé notamment pour nous identifier à la sécurité sociale.

Loin de susciter une liesse populaire, ce fichage systématique de la population a naturellement provoqué une immense polémique, car tout cela renvoyait à des heures sombres de notre histoire. Visionnaire, la loi informatique et liberté promulguée en 1978 a édicté des principes qui restent contemporains.

Tout le monde connaît maintenant le règlement général de protection des données (RGPD), nouveau cadre européen protecteur des citoyens. Nos boîtes mails ont été noyées de courriers nous signalant la mise en conformité des (très nombreux) détenteurs de nos données personnelles.

Il est en revanche moins connu que ce cadre n’aurait certainement pas vu le jour sans un autre texte, plus méconnu, adopté dès 1981 par le Conseil de l’Europe : la Convention dite « 108 » de protection des personnes à l’égard du traitement automatisé des données à caractère personnel. Ce texte, qui demeure après presque 40 ans le premier instrument juridique international contraignant dans le domaine, a été récemment modernisé : il garantit, évidemment, la protection de la vie privée face aux multiples usages des technologies de l’information tout en facilitant les flux « transfrontières des données ».

Essayons de préciser tout cela avec une invitée de choix : Sophie Kwasny, qui est chef de l’unité « protection des données » du Conseil de l’Europe. Elle a animé les derniers travaux de modernisation et son expertise l’a conduit à recevoir en début 2018 le prix « Michal Serzycki » pour la protection des données en récompense de ses réussites spéciales dans le domaine !


Ecoutez l’entretien avec Sophie Kwasny, chef de l’unité de protection des données du Conseil de l’Europe

Pour en finir avec les fantasmes de l’open data des décisions de justice

[Mise à jour du 23 novembre 2019 : Un amendement a été adopté. Déposé par Paula Forteza (TA AN n° 1396, 2018-2019, amendement n° 1425), il porte sur la réutilisation du nom des magistrats placés en open data et sanctionne certaines finalités de poursuite pénale : « Les données d’identité des magistrats et des fonctionnaires de greffe ne peuvent faire l’objet d’une réutilisation ayant pour objet ou pour effet d’évaluer, d’analyser, de comparer ou de prédire leurs pratiques professionnelles réelles ou supposées. La violation de cette interdiction est punie des peines prévues par les articles 226‑18, 226‑24 et 226‑31 du Code pénal, sans préjudice des mesures et sanctions prévues par la loi n° 78‑17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés ». Le billet ci-dessous, du 9 novembre 2018, ne tenait pas compte de cette évolution. Il demeure encore des points à éclaircir : adresse postale, régime du nom des avocats et autres professions ayant concouru à la décision]

L’Assemblée nationale vient d’adopter ce 9 novembre 2018 un amendement extrêmement technique à l’article 19 de la loi de programmation 2019-2022 et de réforme pour la justice, portant sur l’ouverture libre au téléchargement de la base de données de toutes décisions de justice (open data). Cet amendement tranche la question de la mention des noms des magistrats et desfonctionnaires de greffe dans cette base informatique structurée, en posant un principe de publicité, sauf « à porter atteinte à la sécurité ou au respect de la vie privée de ces personnes ou de leur entourage ».

En témoin extérieur, il n’y aurait là rien d’anormal à ce que les décisions de justice, par nature rendues au nom du peuple français et publiques, portent mention des noms des professionnels ayant concouru à la prise de décision. Ce serait même la traduction numérique d’une obligation connue de publicité des décisions de justice, déjà codifiée[1]. Pourtant, cet amendement cherche à atteindre un autre objectif, non mentionné dans l’exposé des motifs : celui de pouvoir profiler les juges.

1/ Distinguer les finalités propres de la publicité des décisions de justice de celles de l’open data

Clarifions immédiatement le débat afin de prévenir toute confusion : la publicité unitaire des décisions est déjà assurée dans les jugements papiers délivrés aux parties. Les critiques portant sur la mention de noms dans l’open data n’entendent absolument remettre en cause ces dispositions. Par ailleurs, une sélection de décisions de justice sont déjà disponibles de manière dématérialisée et pseudonymisée[2] sur Legifrance.fr (service public de la diffusion du droit par l’internet). Ce moteur de recherche permet par exemple, à l’aide de mots-clés, d’accéder à une version électronique des décisions judiciaires de la Cour de cassation et à une sélection de décisions de degré inférieur. En totale conformité avec les dispositions de la loi informatique et libertés (et au RGPD), le nom des parties est occulté et le nom des professionnels maintenu dans cette publication électronique. Là encore, les débats ne portent pas sur cette situation. Qu’est-ce qu’il y aurait donc de neuf avec l’open data ? Certainement pas une simple extension du nombre de décisions publiées sur Légifrance.

Revenons tout d’abord au changement complet de paradigme opéré par les articles 20 et 21 de la loi pour une République numérique d’octobre 2016, qui ont déjà totalement renversé la logique de publicité des décisions : d’un principe de sélection de décisions présentant un intérêt particulier résultant du décret du 7 août 2002[3], l’idée est désormais de (quasiment) tout rendre public. Mais pas d’un point de vue unitaire avec une interface de moteur de recherche comme Légifrance comme moyen d’accès, mais d’un point de vue global et systémique : au sens strict, l’open data c’est une base de données informatique brute, librement téléchargeable, et dont la licence autorise à en réemployer son contenu sans le paiement d’une redevance à son producteur. Il faut donc bien distinguer les obligations de publicité des décisions, déjà remplies par les juridictions lors de la délivrance des jugements papiers (et de manière compréhensible pour les citoyens sur Légifrance), avec les objectifs propres de l’open data des décisions de justice : rendre accessibles à tous les opérateurs (publics et privés) des données pouvant être retraitées informatiquement à volonté. Et quand on parle d’accessibilité, on ne parle pas d’intelligibilité. Ces bases de données brutes sont en effet totalement incompréhensibles pour la plupart des citoyens et ne présentent d’intérêt que pour des techniciens sachant les retraiter. On qualifie souvent les données de pétrole du XXIème siècle : l’open data est d’une certaine manière du pétrole brut gratuit à destination de raffineurs. Prêter des vertus de transparence à l’open data, c’est donc d’abord espérer que des tiers puissent s’en saisir pour créer du sens et de la valeur.

2/ Comprendre le sens et la valeur du traitement du nom des juges par des algorithmes

Et c’est bien là que se sont situés les débats postérieurs à la loi pour une République numérique, clarifiés par une mission d’étude et de préfiguration confiée au professeur Loïc Cadiet (dont les conclusions ont été rendues en novembre 2017[4]). Si cette ouverture de données ne concernait que des données non-nominatives, il n’y aurait guère de difficulté. Mais les possibilités de traitement et de croisement de noms ainsi classifiés dans une base de données rendent extrêmement sensible la question. Et le fait qu’il s’agisse de noms de professionnels, comme les magistrats, dont il convient de garantir l’indépendance et l’impartialité rend encore plus délicate cette question.

Les débats ont fait rage et tout semble s’y être mélangé. D’abord la confusion entre l’obligation de publicité et les objectifs propres de l’open data, venant de l’incompréhension totale du terme lui-même (certains ont pensé débattre des algorithmes de traitement, d’autres ont cru qu’il s’agissait de supprimer le nom des magistrats des décisions accessibles de manière unitaire sans imaginer qu’il s’agissait en réalité de la question de livrer tout le coffre au trésor, c’est-à-dire une base de données nominative). Ensuite en alimentant des soupçons corporatistes sur les magistrats qui ne résisteraient que pour éviter de rendre des comptes. Enfin, les affirmations, approximatives, de l’Assemblée nationale selon lesquelles la précédente rédaction de cet article par le Sénat aurait eu « pour effet d’empêcher l’open data des décisions de justice » en ce que « elle imposerait un objectif impossible à atteindre, sauf à effacer des parties entières des décisions de justice avant leur diffusion au public, ce qui rendrait les décisions de justice illisibles et inexploitables ». Il était question d’au moins pseudonymiser le nom des juges, non de l’anonymiser ! Tout cela a habilement occulté la question centrale qui aurait pourtant dû être traitée avant toute autre considération. Quel est le sens et la valeur du traitement d’une telle donnée nominative ?

L’exploitation des noms des présidents de formation de jugement des juridictions administratives (déjà partiellement en open data) avait pourtant permis de percevoir l’inanité d’un indicateur nominatif du taux de rejet de recours contre les obligations de quitter le territoire français[5]. Il paraissait non seulement improbable de penser isoler la tendance décisionnelle d’un président d’une formation juridictionnelle collégiale (dont la composition est par essence variable dans le temps) mais, surtout, la corrélation établie peinait à révéler une réelle cause. D’un point de vue scientifique, en effet, expliquer un comportement humain (celui d’un juge), revient à déterminer les mécanismes de causalité ayant conduit à ce comportement en présence d’un certain nombre de données contextuelles. Cela nécessite la constitution préalable d’un cadre interprétatif, constitué par les hypothèses ou points de vue adoptés par les différentes disciplines des sciences sociales[6]. Or, la seule corrélation statistique entre deux événements est insuffisante pour expliquer les facteurs réellement causatifs[7]. Appliqué au droit et aux décisions judiciaires, on mesure immédiatement ce qu’il peut y avoir de scientifiquement erroné et d’idéologique dans l’ambition de tenter de rendre objective la décision des juges grâce à des algorithmes moulinant de l’open data. Fournir une véritable explication d’un jugement nécessiterait une analyse beaucoup plus fine des données de chaque affaire et ne saurait naître spontanément d’une masse de liens lexicaux dans lesquels figure le nom d’un magistrat. Par exemple, le fait qu’un juge aux affaires familiales fixe statistiquement davantage la résidence habituelle d’un enfant chez la mère dans un ressort déterminé ne traduit pas nécessairement un parti-pris de ce magistrat en faveur des femmes, mais s’explique davantage par l’existence de facteurs sociaux-économiques et culturels propres à la population de sa juridiction[8].

3/ Et si la structuration des tuyaux de l’open data était la toute une première priorité ?

Les juges ne cherchent donc pas à être encagoulés comme l’affirmait le Canard Enchaîné le 25 avril 2018, ils n’ont pas à rougir pas de leurs décisions. Mais ils craignent des explications faussées et biaisées des décisions de justice qu’ils rendent. Car un profilage des juges qui confondrait outrancièrement corrélation et causalité viendrait profiter à des grands opérateurs économiques, à même de manipuler (dans tous les sens du terme) cette information… et probablement au détriment des citoyens que nous sommes.  

L’on perd malheureusement de vue la toute première priorité dans cette affaire : arriver à structurer les tuyaux de l’open data, puisque, à ce jour, ils n’existent que très partiellement. Il y a là un défi technique majeur à parvenir tout simplement à regrouper toutes les décisions judiciaires dans un format nativement numérique et à les pseudonymiser, défi pour lequel il conviendrait avant tout de donner des moyens substantiels au ministère de la justice, à la Cour de cassation et aux juridictions. Bien sûr, les éditeurs et des legaltechs préféreraient des flux « intègres » (c’est-à-dire des décisions dont les données nominatives ne seraient pas occultées) pour opérer eux-mêmes une pseudonymisation, mais il sera bien temps d’ouvrir progressivement les vannes de ce que l’on déverse dans la jungle numérique une fois que l’on aura clarifié, par un travail scientifique rigoureux soucieux de l’intérêt général, si l’on peut arriver à donner du sens et de la valeur à ces données sans compromettre quelques principes fondamentaux.


Les présents développements focalisent principalement sur les décisions judiciaires et le nom des magistrats – les problèmes demeurent identiques en ce qui concerne les décisions des juridictions administratives et il ne sera mentionné que l’expérience menée par le sitesupralegem.fr ; les enjeux spécifiques de la présence du nom des greffiers, des avocats ou d’autres professionnels ne seront pas développés ici mais demeurent également à questionner.

[1] L’article 454 du Code de procédure civile par exemple dispose : « Le jugement est rendu au nom du peuple français. Il contient l’indication : de la juridiction dont il émane ;  du nom des juges qui en ont délibéré ; de sa date ; du nom du représentant du ministère public s’il a assisté aux débats ; du nom du secrétaire ; des nom, prénoms ou dénomination des parties ainsi que de leur domicile ou siège social ; le cas échéant, du nom des avocats ou de toute personne ayant représenté ou assisté les parties ; en matière gracieuse, du nom des personnes auxquelles il doit être notifié. »

[2] La pseudonymisation ou « anonymisation réversible » consiste à remplacer un attribut par un autre dans un enregistrement. La personne physique n’est donc plus directement identifiable par son nom (qui est remplacé par exemple par un X…) mais elle est toujours susceptible d’être identifiée indirectement, par croisement de plusieurs données.

[3] Article R. 433-3 du code de l’organisation judiciaire

[4] L’open data des décisions de justice, mission d’études et de préfiguration sur l’ouverture au public des décisions de justice, Rapport à Madame la garde des Sceaux, ministre de la justice, novembre 2017 : http://www.justice.gouv.fr/publication/open_data_rapport.pdf

[5] M. Benesty, L’impartialité des juges mise à mal par l’intelligence artificielle in Village de la justice, Tribunes et point de vue du 24 mars 2016 ; www.village-justice.com/articles/impartialite-certains-juges-mise,21760.html – le contenu du site Supralegem.fr n’est désormais plus accessible et l’adresse redirige vers dalloz.fr

[6] Sur cette question, V. N. Regis, Juger, est-ce interpréter ? : Cahiers Philosophiques, Canopé éd., 2016, n° 147, p. 36-37.

[7] Voir le site internet Spurious Correlation qui recense un grand nombre de corrélations fallacieuses, tel qu’un taux de correspondance à plus de 99% entre 2000 et 2009 entre le nombre divorces dans l’Etat du Maine et la consommation de margarine par habitant – http://tylervigen.com/spurious-correlations

[8] Pour de plus amples développements, voir Y. Meneceur, Quel avenir pour une justice prédictive : JCP G 2018, doctr.190.