Jurimétrie : l’aléa judiciaire dirigé

De la certitude des prédictions à l’incertitude des probabilités

Texte préparé et présenté dans le cadre du colloque « L’intelligence artificielle et la fonction de juger », organisé à la Cour de cassation le 21 avril 2022 par l’Institut de recherche pour un droit attractif de l’Université Sorbonne Paris Nord (IRDA) et le Centre de droit civil des affaires et du contentieux économique (CEDCACE), axe justice judiciaire, amiable et numérique de l’Université Paris Nanterre

Texte publié le 22 avril 2022 et révisé le 24 avril 2022

La résurgence de l’intelligence artificielle (« IA[1] ») dans notre quotidien depuis le début des années 2010 doit beaucoup à la science statistique. Les différentes méthodes d’apprentissage automatique empruntent en effet nombre d’approches de la discipline, en traitant et en interprétant de grands ensembles de données. Les résultats remarquables obtenus, notamment pour la reconnaissance d’images ou de sons, ont conduit à un vif enthousiasme des entrepreneurs qui ont cherché à en généraliser l’application. Le secteur de la justice n’a pas échappé à cette évolution en France, essentiellement à l’initiative de très dynamiques startups spécialisées dans le droit (legaltechs), qui ont affiné leurs offres depuis le milieu des années 2010.

La mode de la « justice prédictive », après un emballement assez typique des technologies numériques si l’on en croit les courbes d’adoption de l’innovation[2], paraît maintenant s’être normalisée avec des discours plus matures, moins centrés sur la « prédiction[3] » que sur la recherche et l’analyse juridique. Il doit être constaté que les narrations disruptives de certains jeunes entrepreneurs, typiques de la Silicon Valley, ont eu du mal à convaincre largement les professionnels (notamment les magistrats), moins du fait de la résistance au changement que de la perception de la réelle valeur ajoutée des outils proposés (et de la déception en découlant)[4]. Il semble maintenant que ce soit au tour du terme de « jurimétrie[5] » d’occuper l’espace public, en lieu et place du marketing de la « justice prédictive ». Le glissement sémantique a du sens, puisque ce terme, ressuscité des années 1950[6], paraît revêtir plus de scientificité et moins de parapsychologie.

Le présent propos n’ambitionnera pas de procéder à une étude critique des argumentaires commerciaux de ces offres, mais cherchera, au travers de cas concrets, à ouvrir la réflexion sur le sens exact de l’information produite. Les résultats des outils mobilisés, venant de la statistique ou des probabilités, paraissent devoir, a minima, être interprétés avec beaucoup de précautions et mis en perspective avec la place de la jurisprudence dans notre système juridique. Des enseignements pourraient aussi être tirés à la suite de l’arrêt de l’expérimentation publique de l’algorithme DataJust. Sauf à considérer comme acceptable de voir des calculs, souvent bien opaques, s’imposer comme une potentielle nouvelle source de droit, le marché devrait donc être sérieusement régulé pour éviter notamment des violations de l’article 6 de la Convention européenne des droits de l’homme (sous la perspective essentiellement de l’accès au juge). La « proposition de règlement sur l’intelligence artificielle » en cours de discussion au sein des institutions de l’Union européenne devrait considérer ces applications comme à « haut risque » et leur imposer probablement une certification dans les années à venir. Après un exposé de la méthode de la jurimétrie (I) et de ce qu’elle entend révéler (II), nous verrons ce qu’elle révèle plus probablement (III) et les nombreux autres problèmes de fond que son emploi soulève (IV).

I. La jurimétrie : un emploi combiné d’apprentissage automatique, de probabilités et de statistique

Établir un profil type et approfondi des solutions de jurimétrie n’est pas aisé. La propriété intellectuelle et le secret des affaires protègent les réalisations du secteur privé et les publications scientifiques, même émanant directement ou indirectement des legaltechs, ne documentent que très partiellement les mécanismes en œuvre[7]. Il semble même que des solutions ad hoc, mélangeant plusieurs approches, soient parfois construites selon les types de contentieux à traiter. Pour réaliser cet état des lieux, nous croiserons donc plusieurs publications publiques, notamment une relative à l’indemnisation du préjudice corporel[8]. Il doit être précisé qu’en France, seuls certains contentieux de nature civile ou commerciale, avec des indemnisations chiffrées – donc quantifiables, ont fait l’objet de développements du secteur privé avec des outils qualifiés « d’IA[9] ». Ce terme sera aussi à interpréter de manière générale avec précaution, puisqu’il peut désigner des approches tout à fait différentes selon les opérateurs, avec des conséquences notables sur l’explicabilité du fonctionnement du système.

L’un des premiers cas significatifs d’utilisation de « l’IA » avec de la jurisprudence, largement étudié et commenté du fait de sa transparence et de sa documentation, est celui de l’University College London (UCL) qui annonçait pouvoir reproduire 79% des décisions de la Cour européenne des droits de l’homme. En 2016, ces chercheurs avaient employé des algorithmes de traitement de langage naturel (NLP – Natural Language Processing) et des machines à vecteur de support (SVM – Support Vector Machine) pour identifier des récurrences linguistiques dans 584 arrêts de la juridiction et émettre ainsi l’hypothèse que les mêmes constantes de termes juridiques menaient aux mêmes décisions[10]. La tâche confiée ici à la machine est une tâche dite de « classification », pour trier de manière « prédictive » les arrêts constatant une violation de la Convention de ceux constatant une non-violation. Le processus « d’entraînement » de la machine décrit dans cette expérimentation est tout à fait commun à tous les emplois d’apprentissage automatique (machine learning) employé par les legaltechs. L’idée est de regrouper une masse plus ou moins importante de décisions de justice et de la séparer en deux groupes. Le premier groupe est employé pour « apprendre » à la machine les constantes des décisions et le second groupe sert à tester la fiabilité de cet apprentissage. Là où les processus commencent à différer entre les différentes solutions, c’est, en amont, sur la manière de rendre intelligibles les décisions pour une machine et sur le choix de la forme d’apprentissage.

Au sens strict, ces deux approches ne sont pas de la statistique, puisqu’il ne s’agit pas d’établir, pour des affaires similaires, une moyenne ou une médiane d’indemnisation par exemple

Dans cet autre exemple venant d’une legaltech[11] en matière de contentieux de la réparation du préjudice corporel[12], il a été retenu 7 000 arrêts de cour d’appel dans le domaine, permettant d’informer chacun des 100 à 200 critères définis par les concepteurs pour exercer une influence sur la prise de décision[13]. Il doit être rappelé que l’expérimentation d’utilisation de « l’IA » menée par le ministère de la justice en France, sur le même type de contentieux, regroupait moins d’une cinquantaine de critères[14]. Ici, l’extraction des informations de ces décisions pour renseigner la centaine de critères n’est pas automatisée par un algorithme de traitement de langage naturel. Ce sont des juristes qui opèrent ce traitement et traduisent ainsi pour la machine les informations qui vont lui être utiles. La machine est ensuite entraînée avec 5 000 de ces 7 000 décisions « traduites », pour chercher à établir des liens (corrélations) entre la centaine de critères et le montant de l’indemnisation. La solidité des paramétrages du modèle mathématique ainsi constitué est vérifiée à l’aide des 2 000 décisions restantes, en testant si l’emploi des valeurs particulières de ces affaires, renseignées dans la centaine de critères, permet de se rapprocher du montant d’indemnisation effectivement prononcé. Cette forme d’apprentissage paraît s’apparenter à de la régression linéaire, c’est-à-dire à une recherche de relation entre une variable dite expliquée (le montant de l’indemnisation) et une ou plusieurs variables dites explicatives (la centaine de critères choisis).

Au sens strict, ces deux approches ne sont pas de la statistique[15], puisqu’il ne s’agit pas d’établir, pour des affaires similaires, une moyenne ou une médiane d’indemnisation par exemple[16]. L’idée est d’établir un modèle mathématique permettant, avec l’introduction de nouvelles données d’entrée, de « prédire » une donnée de sortie. Au sens large, des moteurs de recherche avancés, permettant par exemple de présenter de manière graphique des distributions de décisions en fonction des montants d’indemnisation, pourraient être considérés également comme une forme moins sophistiquée de jurimétrie.

II. Ce que la jurimétrie entend révéler

L’objectif annoncé par les legaltechs a évolué en France, même si certaines sont restées très prudentes dès leur lancement. La capacité de « prédire » le montant d’une indemnisation dans divers contentieux (divorce, licenciement, réparation du préjudice corporel, rupture brutale des relations commerciales, etc.), avec une valeur ajoutée bien incertaine notamment à l’issue d’une expérimentation dans les cours d’appel de Rennes et de Douai[17], n’est plus mise en avant par les opérateurs. Il y est aujourd’hui préféré « la recherche et l’analyse », « l’analyse du risque juridique » ou la « maîtrise de l’aléa du quantum » où l’appréciation de la probabilité de la résolution d’un litige a donc remplacé la très ambitieuse « prédiction ».

Autrement dit, l’idée se rapproche maintenant plus d’établir des barèmes dynamiques distribués par probabilité de prononcé d’un montant d’indemnisation par une juridiction. Si certains éditeurs juridiques produisaient déjà ce type de représentation dans des moteurs de recherche, au moyen d’un dénombrement de décisions présentant des critères communs, les deux exemples évoqués cherchent à tirer avantage de diverses formes d’apprentissage automatique pour modéliser mathématiquement un traitement contentieux. Une legaltech annonce ainsi être parvenue à « reproduire le raisonnement des magistrats ». Son originalité est de ne pas présenter à ses utilisateurs qu’un seul résultat issu de leur modèle mathématique, mais une distribution de 100 « solutions » calculées de manière concurrente avec différents paramètres (baptisée « juges virtuels »), censée couvrir les diversités des pratiques et embrasser l’ensemble des réponses possibles des juridictions[18]. Les concepteurs enrichissent de plus le modèle de manière continue avec de nouvelles décisions afin de le faire évoluer avec la pratique des juridictions et de ne pas être qu’un simple « rétroviseur » sur le passé.

La jurimétrie paraît donc présentée aujourd’hui bien plus en complément d’une démarche globale de détermination d’une stratégie pour un traitement contentieux que comme une solution en elle-même.

Une autre ambition consiste également à chercher à révéler, dans un esprit de « réalisme juridique[19]», les pratiques concrètes des juges. Une legaltech a ainsi documenté ce qu’elle appelle « le sourire d’indemnisation[20] » en matière de réparation du préjudice corporel. Les concepteurs de cette solution affirment avoir identifié un lien entre le montant de l’indemnisation prononcée par les juges et le montant proposé initialement à la victime, confortant l’idée que faire une offre trop basse peut exposer un assureur à devoir payer plus que s’il avait choisi de se montrer plus généreux. Un article posté sur les réseaux sociaux et leur site internet montre une courbe en forme de sourire dans un graphique liant, en abscisse, la proposition des assureurs et, en ordonnée, le montant de l’indemnisation prononcée par les cours d’appel. La modélisation du contentieux démontrerait ainsi qu’il existerait une proposition « optimale » pour limiter l’écart entre les deux. Cette intuition est aussi qualifiée par un sondage informel d’une quarantaine de magistrats (sondage tout à fait reconnu comme étant peu rigoureux et simplement indicatif par la legaltech). Selon cet échantillon de professionnel, un tiers des magistrats corrigeraient effectivement d’eux-mêmes les propositions manifestement peu réalistes, un autre tiers se rapprocherait de la demande la plus réaliste et un dernier tiers n’examinerait aucune des propositions, sauf pour s’assurer qu’il ne statuerait pas ultra petita[21].

La jurimétrie paraît donc présentée aujourd’hui bien plus en complément d’une démarche globale de détermination d’une stratégie pour un traitement contentieux que comme une solution en elle-même. C’est pourquoi ces outils intéresseront bien plus les avocats, les directions juridiques ou les compagnies d’assurances, qui cherchent à provisionner leur risque, que les magistrats. Il faut dire que le raisonnement judiciaire est surtout affaire d’appréciation et d’interprétation, celles des faits prouvés et pertinents du litige, et des règles de droit applicables, afin d’élaborer une décision individualisée au cas d’espèce et non pas de réaliser une quantification des solutions précédentes.

III. Ce que la jurimétrie révèle (probablement)

Un premier constat pourrait être dressé : même si le discours a changé, l’ambition est la même. Rappelons que l’objectif des probabilités est bien de déterminer la chance (ou le risque) qu’un événement aléatoire se produise. Donc, même si le terme de jurimétrie paraît renvoyer à des disciplines à forte scientificité comme l’économétrie (et non de vagues « prédictions »), une certaine prudence reste de mise avec les discours commerciaux trop enthousiastes.

La démarche n’ambitionne donc à aucun moment de reproduire un code informatique explicite imitant le raisonnement juridique ni d’établir à proprement parler des statistiques générales

Sur le fond, la construction d’un modèle mathématique basé sur un nombre plus ou moins grand de critères pour identifier des régularités n’a rien de commun avec la compréhension et l’analyse d’un raisonnement juridique. Annoncer que « l’intelligence artificielle a appris à reproduire le raisonnement des magistrats » est donc un raccourci qui doit être explicité : en utilisant de l’apprentissage automatique, il n’a pas été cherché à établir une cartographie des étapes d’une réflexion humaine. L’objectif est de modéliser mathématiquement un « ordre secondaire », caché et impersonnel produisant, pour un jeu d’informations d’entrée, un résultat proche d’un traitement humain. La démarche n’ambitionne donc à aucun moment de reproduire un code informatique explicite imitant le raisonnement juridique ni d’établir à proprement parler des statistiques générales dans ce domaine contentieux. « L’apprentissage » de la machine produit en réalité une équation relativement peu intelligible dont le bon fonctionnement est validé si l’introduction de données de test permet d’obtenir un résultat proche de la réalité.

Les concepteurs ont donc peu d’intérêt pour le sens du modèle établi et son explicabilité puisqu’ils se satisfont, comme dans d’autres domaines d’application de « l’IA », de constater que « cela fonctionne ». Après tout, est-ce que nous avons besoin de savoir comment notre cerveau fonctionne pour en exploiter ses capacités ? C’est cet exact raisonnement qui avait conduit le rédacteur en chef de Wired, célèbre revue américaine sur les technologies, à déclarer obsolète la théorie scientifique, les corrélations primant, selon lui, sur les causalités[22]. Appliquée à la jurisprudence, la compréhension des exactes raisons, juridiques ou psychologiques, ayant pu conduire à telle ou telle issue n’est donc pas indispensable pour construire un modèle mathématique. L’idée est d’emprunter un tout autre chemin, abstrait, insensible aux contingences de chaque dossier et aux stratégies individuelles des parties, pour révéler une « loi », au sens mathématique. La très grande complexité et l’intelligibilité de cette loi importent peu si, appliquées à des faits jamais observés par la machine, l’on parvient à en extrapoler des résultats relativement réalistes.

Il est vrai que l’approche mathématique de phénomènes avec de forts aléas n’a rien d’original, et c’est même tout l’objet des « sciences de l’aléatoire ». Nombre de phénomènes, dont les plus improbables à un niveau fin d’observation, semblent en effet répondre à des « lois » impersonnelles et spontanées que les algorithmes d’apprentissage excellent à révéler. Il a pu ainsi être démontré qu’à une échelle globale, il existe un « ordre caché » du basket, obtenu par l’agrégation de 1,25 million de scores dans 40 000 parties. Si cet « ordre » n’est recherché par aucun des protagonistes d’un match et ne permet pas de prédire l’issue d’un match, il parvient en revanche de prédire le nombre de fois où une équipe mène puis est menée au cours d’un match, ainsi que la probabilité qu’un certain nombre de points d’avance suffise à remporter le match à quelques minutes de la fin[23].

Mais dans le cas des contentieux judiciaires ainsi traduits en modèles mathématiques, qu’est-ce qui est effectivement traduit ? Il est loin d’être sûr que ce soit effectivement un ordre spontané capturant l’essence du raisonnement des juges. D’autres hypothèses pourraient être testées, en revenant à une évidence : la matière traitée par les algorithmes est avant tout linguistique. Ainsi, est-ce l’on ne révèlerait pas plutôt simplement l’homogénéité linguistique (régularité de termes ou de concepts) ou quantitative (pour les contentieux chiffrés) du matériel écrit que représente une décision de justice ? Pour le dire autrement, la similarité formelle d’une nouvelle décision ou d’éléments de cette décision avec les précédentes, ce qui est tout à fait distinct de l’application de la règle de droit. Ainsi, l’exemple de la machine entraînée par l’UCL avec la jurisprudence de la CEDH a en réalité « appris » la fréquence de mots dans les décisions de violations (ou de non-violations). D’autres recherches ont commenté ces travaux en rappelant notamment que la meilleure prédictibilité de la partie factuelle d’une décision par rapport à la partie d’analyse juridique devrait conduire avant tout à conclure… que l’on ne peut pas conclure à grand-chose[24]. Outre la restitution de l’activité de la Cour (le terme « Ukraine » apparait comme un prédictif de violation au visa de l’article 3 de la CEDH), il serait intéressant de voir si ce traitement ne révèle pas aussi d’autres pratiques comme l’utilisation de modèles de décision par le greffe. Moins qu’un modèle permettant de la prévision, l’on aurait donc plutôt affaire à la description du vocabulaire employé dans le jeu de données d’apprentissage et à l’évaluation des régularités linguistiques. Le même constat est à dresser avec les autres emplois de l’apprentissage automatique et la recherche de relations entre variables. La récurrence de liens entre l’âge des parties, la durée du mariage, les salaires, le nombre d’enfants et le montant d’une prestation compensatoire ne sera que la description de l’état des relations entre ces variables dans le jeu de données d’entraînement, dans un environnement très contraint par des règles, avec toute l’incertitude liée au risque de corrélations fallacieuses[25] ou à des discriminations inattendues du fait de « variables proxys[26] ». La signification de l’extrapolation avec de nouvelles données, même distribuée en utilisant différents paramètres, reste très indéterminée. Tout comme pour le basket, où les chercheurs ont conclu que les régularités provenaient vraisemblablement de « contraintes communes sur le comportement collectif », cet ordre nous renseigne peut-être plus sur la rigueur d’application d’une règle que sur la manière d’interpréter effectivement cette règle ou même l’intention du juge[27].

C’est d’ailleurs bien pour cela que dans certaines legaltechs ont fait le choix de présenter les montants calculés sous forme de probabilité, renvoyant à l’utilisateur la responsabilité de l’interprétation. La méthode laisse par ailleurs le champ ouvert à une explication a posteriori où l’on gagne chaque fois : si le montant effectivement prononcé se trouve dans la fourchette majoritaire, l’algorithme l’aura prévu ; si le montant se trouve dans l’une des fourchettes minoritaires, l’algorithme l’aura aussi prévu. À se demander si une approche moins complexe, sans apprentissage automatique, bornant simplement les minima et les maxima d’affaires relativement similaires, ne fournirait finalement pas le même service[28].

IV. Les problèmes de fond communs à toutes les initiatives de jurimétrie

Avant de conclure sur les importants problèmes de fond communs à toutes les initiatives de jurimétrie, il doit être constaté que ceux-ci sont malheureusement trop souvent minimisés ou renvoyés à des débats d’experts. Fortement inspirés de l’héritage idéologique de Hayek, nombre de discours aujourd’hui paraissent simplement « croire » à la fois à un monde déterministe et aux mérites d’un ordre spontané pour organiser les affaires humaines, surtout s’il est révélé par des algorithmes. Pourtant, l’interprétation des modèles produits par l’emploi de « l’IA » sur de la jurisprudence nécessiterait un travail extrêmement approfondi de revue par les pairs avant de conclure à quoi que ce soit.

La première difficulté à soulever est une question préalable pourtant fondamentale, mais peu traitée quand l’on discute de « jurimétrie » : quelle est la place exacte de la jurisprudence dans notre système juridique ? Si l’on essaye de la situer en tant que source de droit, l’apport de la masse des décisions de première instance et d’appel reste très peu significatif et l’on devrait s’interroger dès lors sur la normativité de cet ensemble si impatiemment attendu sous le format d’open data. Ce n’est pas un hasard si le « réalisme juridique » nous vient d’un pays de Common Law, où l’entier système repose sur les précédents. Il y aurait donc une erreur d’interprétation par les legaltechs du rôle, de la place et même de la teneur d’une décision de justice en France, du même niveau qu’appeler « votre Honneur » le juge ou en se demandant pourquoi il ne dispose pas d’un marteau.

Si l’on admet toutefois l’intérêt de chercher à mieux connaître la production des tribunaux par un formalisme mathématique, toute une autre série de difficultés demeure.

Cette problématique renvoie aussi à l’idée, fortement répandue chez les non-juristes ou des juristes peu expérimentés, que le matériel de la décision judiciaire contient tous les éléments nécessaires à son exploitation

L’une des difficultés les plus structurelles tient à la qualité des données employées pour concevoir les modèles. La sélection de décisions opérée pour correspondre à un cadre d’analyse laisse de côté un nombre potentiellement substantiel de décisions, dont l’intérêt pour enrichir la diversité du modèle aurait pu être décisif. Pour le reformuler, ce « datasnooping » conduit à un biais dans les données, pour ne sélectionner par exemple que les seules décisions de juridictions ou de formations au contenu particulièrement riche et adapté pour l’entraînement. Les décisions se bornant, sur le fondement de l’art.455 du code de procédure civile, à effectuer un visa aux écritures des parties pour exposer les prétentions des parties sont-elles employables par exemple ? De manière plus spécifique sur le contentieux de la réparation du préjudice corporel, rien n’indique si des transactions ont pu intervenir sur certains postes de préjudice, minorant ainsi sensiblement les données chiffrées d’apprentissage.

De manière générale, cette problématique renvoie aussi à l’idée, fortement répandue chez les non-juristes ou des juristes peu expérimentés, que le matériel de la décision judiciaire contient tous les éléments nécessaires à son exploitation. Même si la théorie juridique et la compréhension des causes paraissent quelque peu indifférentes à certains concepteurs des legaltechs, il doit être rappelé que la formalisation d’un jugement n’est qu’une traduction a posteriori sous la forme d’un syllogisme, permettant de justifier la validité d’un raisonnement juridique pour en déduire une solution. Deux raisonnements valides dans un ordre juridique donné peuvent aboutir à des décisions parfaitement conformes en droit, mais diamétralement opposées. Cette « texture ouverte du droit » est tout ce que les modèles ne parviendront jamais à capturer, aplatissant tous les raisonnements isolés ou aberrants (statistiquement) dans des grands nombres.

L’apprentissage automatique ne permettant pas de revenir du modèle mathématique aux décisions d’apprentissage, l’on se prive également d’une indispensable capacité à « zoomer » sur ce qui a influencé l’entraînement. En l’absence de certification du processus d’alimentation des algorithmes des legaltechs, rien aujourd’hui ne permet de démontrer que le modèle ne fait pas l’objet de biais, volontaires ou involontaires. Si ces applications de « l’IA » se généralisent et influencent effectivement le choix d’aller en justice ou les débats, il deviendra indispensable de démontrer que les calculs ne sont pas favorables à certains intérêts, en ayant été infléchis par des jeux de décisions favorables à l’un des investisseurs de la legaltech par exemple. Le pouvoir de sélectionner les décisions et de déterminer les caractéristiques qui vont influencer l’entraînement est central dans ce type de démarche et il peut paraître peu opportun de le déléguer à des entités privées, sans aucune légitimité démocratique.

Une autre difficulté est d’ordre plus théorique, mais a été bien illustrée dans un article publié par l’un des concepteurs de ces systèmes[29]. L’idée, avec ces dispositifs calculatoires, est clairement de faire émerger une nouvelle forme de normativité (qualifiée dans l’article cité « d’isométrique ») conciliant « une meilleure connaissance de l’application de la règle de droit, une homogénéisation de la justice qui renforce la confiance des citoyens, et une stabilité de la norme par la prise en compte de la pensée collective des magistrats ».

Mais cette normativité fait émerger en réalité une toute nouvelle forme d’État, au sein de laquelle la primauté du droit n’est plus assurée. S’il a été abondamment écrit sur la gouvernementalité des nombres[30], la gouvernementalité algorithmique[31] ou le « coup data[32] », il faut bien prendre conscience que l’ambition de la jurimétrie est autant de chercher à réduire l’aléa judiciaire que de devenir une source à part entière de normativité à part entière, sans pour autant assurer la pleine accessibilité et la transparence de son fonctionnement. Si une décision de justice est accessible à tous, au prix d’un effort de compréhension du langage juridique, le modèle mathématique restera, lui, insondable même pour ses concepteurs. Sans parler des risques de transformer le juge en arbitre entre des algorithmes produisant des probabilités différentes, au détriment de son office premier, qui est d’appliquer le droit.

Bien entendu, les biais humains des juges ne sont certainement pas plus acceptables que les biais algorithmiques, mais ces derniers sont malheureusement souvent trop bien enfouis sous un vernis de modernité et une neutralité fallacieuse. Un juge est d’abord sélectionné pour ses qualités professionnelles et humaines. Il est ensuite longuement formé pour justifier de ses décisions. Il n’est enfin jamais seul, puisque des appels sont possibles. Aucune de ces garanties ne s’applique à des machines, dont l’élaboration répond avant tout à des intérêts particuliers. De manière tout à fait substantielle, c’est donc le déficit démocratique de cet « État des algorithmes » qui devrait nous préoccuper avec urgence, puisqu’il opère un transfert inédit de responsabilité vers des concepteurs qui n’ont d’autre mandat que la viabilité de leurs entreprises et le respect de leurs engagements envers leurs investisseurs.

La dernière difficulté qui sera évoquée ici est d’ordre technique et tient à la fragilité des modèles entraînant dans un système juridique de droit continental. Si l’on comprend que les variations d’interprétation ont vocation à coloniser progressivement les modèles mathématiques par de nouveaux entraînements, deux questions demeurent : a) si une interprétation, même très minoritaire, entraîne un revirement rapide de jurisprudence comment le modèle s’adapte ? ; b) si la loi change, que faire du modèle si savamment entraîné ? De même, si l’on considère qu’un sens émerge de la somme des pratiques professionnelles des magistrats, l’impact de leur forte mobilité sur la qualité des modèles est alors à considérer. Ces simples questions démontrent que la construction de cathédrales algorithmiques est extrêmement fragile quand, par nature, les fondations sont mouvantes. Si l’on risque relativement peu de révolution en entraînant une machine à distinguer un chat d’un chien, la matière juridique s’avère bien plus versatile.

La fragilité de ces modèles tient aussi à leur extrême sensibilité aux biais, parfois renforcés au travers de « variables proxys » paraissant anodines, mais avantageant (ou désavantageant) une catégorie sensible de population. L’exemple de l’algorithme américain COMPAS en matière d’évaluation du risque de récidive est certainement le plus célèbre et le mieux documenté : c’est bien le code postal qui a indirectement qualifié l’origine ethnique des individus et a conduit à appliquer un haut score de récidive à toutes les populations afro-américaines. Il ne semblerait pas déraisonnable de devoir tester ces modèles, même en matière civile, pour voir si la localisation géographique d’un contentieux ne conduit pas indirectement à proposer des indemnisations plus basses à des justiciables d’immigration récente par exemple.

C’est pourquoi le futur règlement européen sur l’intelligence artificielle va vraisemblablement classer les systèmes d’IA comme étant « à haut risque » et leur imposer une procédure de certification. Il peut être espéré que ces procédures parviennent à opérer une sélection de ces systèmes, pour leur permettre de se déployer avec des fonctionnalités moins polémiques et plus matures. Qu’il s’agisse d’un moteur de recherche, de la recherche d’arguments ou de preuves pouvant intéresser une procédure (legal discovery), les applications imaginables de « l’IA » ne manquent pas.

La généralisation de la jurimétrie, en revanche, requiert le temps de l’étude et ne devrait pas être instrumentalisée comme une solution de politique publique viable afin de servir de nouvelles formes de barèmes ou pour décourager les justiciables d’accéder aux tribunaux. Il ne s’agit pas, en effet, d’un simple outillage complémentaire à une expertise humaine. Les outils algorithmiques s’imposent à nous avec une autorité particulière, conduisant, par biais d’automatisation et biais d’ancrage, à leur déléguer la prise de décision. Et même si l’on peut considérer qu’en l’état de notre système juridique, une marge d’interprétation restera de toute manière laissée aux juges, celle-ci se réduit en réalité avec la charge de travail qui leur est imposée et la crainte de voir leur responsabilité engagée s’ils motivent contre un algorithme qui serait reconnu comme une référence publique[33].

L’abandon de l’expérimentation DataJust, au vu de la multiplicité des critères à prendre en compte pour caractériser l’étendue d’un préjudice corporel et l’importance des moyens à mobiliser pour étudier et prévenir les biais algorithmiques, est, dans un sens, relativement rassurant.

Yannick MENECEUR

Magistrat et maître de conférences associé à l’université de Strasbourg
Auteur des ouvrages « L’intelligence artificielle en procès » (Bruylant) et « IA générative et professionnels du droit » (LexisNexis)

Les opinions exprimées n’engagent que son auteur.

[1] L’acronyme d’intelligence artificielle sera présenté entre guillemets par commodité éditoriale. L’ensemble des technologies recouvertes par ce terme ne constituent naturellement pas une personnalité autonome et, afin de se garder de tout anthropomorphisme, il a été choisi de résumer les termes plus appropriés « de systèmes d’intelligence artificielle », « d’outils d’intelligence artificielle » ou « d’applications d’intelligence artificielle » par le seul terme « d’IA » entre guillemets.

[2] Voir par exemple la courbe du « hype cycle » de Gartner : https://www.gartner.fr/fr/methodologies/hype-cycle [Consulté le 22 avril 2022]

[3] Y. Meneceur, « Quel avenir pour la ‘justice prédictive’ ? Enjeux et limites des algorithmes d’anticipation des décisions de justice », JCP 2018. 190

[4] S. Le Nevé, Xavier Ronsin : “Ce logiciel de justice prédictive ne nous apportait aucune plus-value”, Acteurs Publics, 30 novembre 2017

[5] L. Loevinger, “Jurimetrics–The Next Step Forward », Minnesota Law Review, 33: 455, 1949 – Le terme qualifie précisément l’emploi de méthodes quantitatives, telles que les probabilités ou la statistique, au droit

[6] Voir les « Préconisations d’actions pour les legaltechs du domaine de la jurimétrie » du Conseil National des Barreaux, 13 octobre 2020 – Accessible sur : https://www.cnb.avocat.fr/fr/actualites/preconisations-dactions-pour-les-legaltechs-du-domaine-de-la-jurimetrie [Consulté le 22 avril 2022]

[7] Voir notamment L.D. Godefroy, F. Lebaron, J. Lévy-Vehel, « Comment le numérique transforme le droit et la justice vers de nouveaux usages et un bouleversement de la prise de décision », Rapport de recherche écrit pour la Mission de recherche Droit et Justice, 2019 ou encore M. R. S. Marques, T. Bianco, M. Roodnedaj, T. Baduel, C ; Berrou, « Machine learning for explaining and ranking the most influential matters of law », ICAIL ’19, 17-21 juin 2019

[8] L. Tavitian, « L’indemnisation du préjudice corporel : la modélisation au service de l’équité », Blog de Case Law Analytics, 19 novembre 2020 – Accessible sur : https://blog.caselawanalytics.com/modelisation-indemnisation-prejudice-corporel/ [Consulté le 22 avril 2022]

[9] Rappelons que le recours à « l’IA » pour évaluer la dangerosité d’un individu en matière pénale par exemple est interdit en France puisque « aucune décision de justice impliquant une appréciation sur le comportement d’une personne ne peut avoir pour fondement un traitement automatisé de données à caractère personnel destiné à évaluer certains aspects de la personnalité de cette personne » – Loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés, art. 47 modifié par l’ordonnance n°2018-1125 du 12 décembre 2018.

[10] N. Aletras, D. Tsarapatsanis, D. Preoţiuc-Pietro, V. Lampos, Predicting judicial decisions of the European Court of Human Rights : a Natural Language Processing perspective, 24 octobre 2016 – Accessible sur : https://peerj.com/articles/cs-93/ [Consulté le 22 avril 2022]

[11] L. Tavitian, « L’indemnisation du préjudice corporel : la modélisation au service de l’équité »,op.cit.

[12] Rappelons que, dans le contentieux de la réparation du préjudice corporel, le juge intervient en cas de contestation d’une offre d’indemnisation émise par les débiteurs de créance d’indemnisation, qui peuvent être des personnes physiques ou morales (organismes payeurs publics ou privés comme les assureurs)

[13] Ces critères sont ceux pouvant être déterminés par la loi mais aussi ceux désignés par les concepteurs comme pouvant avoir une influence sur les différents postes de préjudice, au vu de la pratique des juges.

[14] Y. Meneceur, DataJust face aux défis de l’intelligence artificielle, JCP G n°40, LexisNexis, 28 septembre 2020

[15] Afin de ne pas entretenir des confusions, il ne sera pas développé ici le fait que l’apprentissage automatique est aussi qualifié d’apprentissage… statistique.

[16] Rappelons que la population de dossiers totalement similaires à un nouveau cas, quel que soit le contentieux, est en général extrêmement faible.

[17] Entretien avec X. Ronsin, « L’utilisation de l’outil Predictice déçoit la cour d’appel de Rennes », Dalloz Actualité, 16 octobre 2017 et droit de réponse exercé par Predictice en bas d’article- Accessible sur : https://www.dalloz-actualite.fr/interview/l-utilisation-de-l-outil-predictice-decoit-cour-d-appel-de-rennes#.Yl0j2vNBydY [Consulté le 22 avril 2022]

[18] Y.Eudes, « Des ‘juges virtuels’ pour désengorger les tribunaux », Le Monde, Pixels, 1^er janvier 2018 – Accessible sur : https://www.lemonde.fr/pixels/article/2018/01/01/des-juges-virtuels-pour-desengorger-les-tribunaux_5236479_4408996.html [Consulté le 22 avril 2022]

[19] Le réalisme est un courant de la théorie générale du droit, qui se définit comme une approche consistant à vouloir décrire le droit tel qu’il est « réellement » et non tel qu’il devrait être selon telle ou telle philosophie morale ou politique.

[20] L’auteur de cet article avait été contacté par cette legaltech qui avait qualifié, de manière humoristique, cette relation comme étant un potentiel « taux d’irritabilité » du juge

[21] En matière civile, un juge ne peut prononcer plus que ce qui a été demandé par l’une des parties. Art. 5, 464 C.Proc.CIv.

[22] C. Anderson, The End of Theory. The Data deluges makes the scientific method obsolete, Wired, 23 juin 2008

[23] A. Clauset, M. Kogan, S. Redner, Safe Leads and Lead Changes in Competitive Team Sports, Physical Review E, covering statistical, nonlinear, biological, and soft matter physics, vol.91, n°6, 2015

[24] M. Hildebrandt, Algorithmic regulation and the rule of law, Phil. Trans. R. Soc. A. 376 – Accessible sur : https://doi.org/10.1098/rsta.2017.0355 [Consulté le 22 avril 2022]

[25] Un célèbre site a montré l’existence d’une forte relation statistique entre le taux de divorce dans l’État du Maine aux États-Unis et la consommation de margarine par habitant. Accessible sur : https://www.tylervigen.com/spurious-correlations [Consulté le 22 avril 2022]

[26] Une variable proxy est une variable qui n’est pas significative en soi, mais qui a une forte corrélation avec une variable non observable ou non mesurable.

[27] N. Regis, « L’intentionnalité du juge », Archives de philosophie du droit n°63, 2022, pp.463-476)

[28] Il ne sera pas développé ici également l’inutile complexité de certains algorithmes. Même si la technologie n’était pas pleinement comparable, il a été démontré par des travaux de recherche que les centaines de paramètres de l’algorithme d’évaluation du risque de récidive « COMPAS » aux États-Unis pouvaient être réduits drastiquement pour obtenir les mêmes résultats… voire être surpassés par un panel d’humains, profanes en matière pénale.

[29] L. Larret-Chahine, « le droit isométrique : un nouveau paradigme juridique né de la justice prédictive », Archives de philosophie du droit n°60, 2018, pp.287-295

[30] A. Supiot, La gouvernance par les nombres – Cours au Collège de France (2012-2014), Fayard, coll. Poids et mesures du monde, 2015

[31] A. Rouvroy et T. Berns, Gouvernementalité algorithmique et perspectives d’émancipation, Réseaux 2013/1, n°177, 2013, pp163-196

[32] A. Basdevant, J-P. Mignard, L’empire des données, Essai sur la société, les algorithmes et la loi, Don Quichotte, 2018

[33] Voir notamment une analyse rétrospective sur l’emploi de l’algorithme VioGén en Espagne : M. Catanzaro, In Spain, the VioGén algorithm attempts to forecast gender violence, Algorithm Watch, 27 avril 2020