Pour en finir avec les fantasmes de l’open data des décisions de justice

[Mise à jour du 23 novembre 2019 : Un amendement a été adopté. Déposé par Paula Forteza (TA AN n° 1396, 2018-2019, amendement n° 1425), il porte sur la réutilisation du nom des magistrats placés en open data et sanctionne certaines finalités de poursuite pénale : « Les données d’identité des magistrats et des fonctionnaires de greffe ne peuvent faire l’objet d’une réutilisation ayant pour objet ou pour effet d’évaluer, d’analyser, de comparer ou de prédire leurs pratiques professionnelles réelles ou supposées. La violation de cette interdiction est punie des peines prévues par les articles 226‑18, 226‑24 et 226‑31 du Code pénal, sans préjudice des mesures et sanctions prévues par la loi n° 78‑17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés ». Le billet ci-dessous, du 9 novembre 2018, ne tenait pas compte de cette évolution. Il demeure encore des points à éclaircir : adresse postale, régime du nom des avocats et autres professions ayant concouru à la décision]

L’Assemblée nationale vient d’adopter ce 9 novembre 2018 un amendement extrêmement technique à l’article 19 de la loi de programmation 2019-2022 et de réforme pour la justice, portant sur l’ouverture libre au téléchargement de la base de données de toutes décisions de justice (open data). Cet amendement tranche la question de la mention des noms des magistrats et desfonctionnaires de greffe dans cette base informatique structurée, en posant un principe de publicité, sauf « à porter atteinte à la sécurité ou au respect de la vie privée de ces personnes ou de leur entourage ».

En témoin extérieur, il n’y aurait là rien d’anormal à ce que les décisions de justice, par nature rendues au nom du peuple français et publiques, portent mention des noms des professionnels ayant concouru à la prise de décision. Ce serait même la traduction numérique d’une obligation connue de publicité des décisions de justice, déjà codifiée[1]. Pourtant, cet amendement cherche à atteindre un autre objectif, non mentionné dans l’exposé des motifs : celui de pouvoir profiler les juges.

1/ Distinguer les finalités propres de la publicité des décisions de justice de celles de l’open data

Clarifions immédiatement le débat afin de prévenir toute confusion : la publicité unitaire des décisions est déjà assurée dans les jugements papiers délivrés aux parties. Les critiques portant sur la mention de noms dans l’open data n’entendent absolument remettre en cause ces dispositions. Par ailleurs, une sélection de décisions de justice sont déjà disponibles de manière dématérialisée et pseudonymisée[2] sur Legifrance.fr (service public de la diffusion du droit par l’internet). Ce moteur de recherche permet par exemple, à l’aide de mots-clés, d’accéder à une version électronique des décisions judiciaires de la Cour de cassation et à une sélection de décisions de degré inférieur. En totale conformité avec les dispositions de la loi informatique et libertés (et au RGPD), le nom des parties est occulté et le nom des professionnels maintenu dans cette publication électronique. Là encore, les débats ne portent pas sur cette situation. Qu’est-ce qu’il y aurait donc de neuf avec l’open data ? Certainement pas une simple extension du nombre de décisions publiées sur Légifrance.

Revenons tout d’abord au changement complet de paradigme opéré par les articles 20 et 21 de la loi pour une République numérique d’octobre 2016, qui ont déjà totalement renversé la logique de publicité des décisions : d’un principe de sélection de décisions présentant un intérêt particulier résultant du décret du 7 août 2002[3], l’idée est désormais de (quasiment) tout rendre public. Mais pas d’un point de vue unitaire avec une interface de moteur de recherche comme Légifrance comme moyen d’accès, mais d’un point de vue global et systémique : au sens strict, l’open data c’est une base de données informatique brute, librement téléchargeable, et dont la licence autorise à en réemployer son contenu sans le paiement d’une redevance à son producteur. Il faut donc bien distinguer les obligations de publicité des décisions, déjà remplies par les juridictions lors de la délivrance des jugements papiers (et de manière compréhensible pour les citoyens sur Légifrance), avec les objectifs propres de l’open data des décisions de justice : rendre accessibles à tous les opérateurs (publics et privés) des données pouvant être retraitées informatiquement à volonté. Et quand on parle d’accessibilité, on ne parle pas d’intelligibilité. Ces bases de données brutes sont en effet totalement incompréhensibles pour la plupart des citoyens et ne présentent d’intérêt que pour des techniciens sachant les retraiter. On qualifie souvent les données de pétrole du XXIème siècle : l’open data est d’une certaine manière du pétrole brut gratuit à destination de raffineurs. Prêter des vertus de transparence à l’open data, c’est donc d’abord espérer que des tiers puissent s’en saisir pour créer du sens et de la valeur.

2/ Comprendre le sens et la valeur du traitement du nom des juges par des algorithmes

Et c’est bien là que se sont situés les débats postérieurs à la loi pour une République numérique, clarifiés par une mission d’étude et de préfiguration confiée au professeur Loïc Cadiet (dont les conclusions ont été rendues en novembre 2017[4]). Si cette ouverture de données ne concernait que des données non-nominatives, il n’y aurait guère de difficulté. Mais les possibilités de traitement et de croisement de noms ainsi classifiés dans une base de données rendent extrêmement sensible la question. Et le fait qu’il s’agisse de noms de professionnels, comme les magistrats, dont il convient de garantir l’indépendance et l’impartialité rend encore plus délicate cette question.

Les débats ont fait rage et tout semble s’y être mélangé. D’abord la confusion entre l’obligation de publicité et les objectifs propres de l’open data, venant de l’incompréhension totale du terme lui-même (certains ont pensé débattre des algorithmes de traitement, d’autres ont cru qu’il s’agissait de supprimer le nom des magistrats des décisions accessibles de manière unitaire sans imaginer qu’il s’agissait en réalité de la question de livrer tout le coffre au trésor, c’est-à-dire une base de données nominative). Ensuite en alimentant des soupçons corporatistes sur les magistrats qui ne résisteraient que pour éviter de rendre des comptes. Enfin, les affirmations, approximatives, de l’Assemblée nationale selon lesquelles la précédente rédaction de cet article par le Sénat aurait eu « pour effet d’empêcher l’open data des décisions de justice » en ce que « elle imposerait un objectif impossible à atteindre, sauf à effacer des parties entières des décisions de justice avant leur diffusion au public, ce qui rendrait les décisions de justice illisibles et inexploitables ». Il était question d’au moins pseudonymiser le nom des juges, non de l’anonymiser ! Tout cela a habilement occulté la question centrale qui aurait pourtant dû être traitée avant toute autre considération. Quel est le sens et la valeur du traitement d’une telle donnée nominative ?

L’exploitation des noms des présidents de formation de jugement des juridictions administratives (déjà partiellement en open data) avait pourtant permis de percevoir l’inanité d’un indicateur nominatif du taux de rejet de recours contre les obligations de quitter le territoire français[5]. Il paraissait non seulement improbable de penser isoler la tendance décisionnelle d’un président d’une formation juridictionnelle collégiale (dont la composition est par essence variable dans le temps) mais, surtout, la corrélation établie peinait à révéler une réelle cause. D’un point de vue scientifique, en effet, expliquer un comportement humain (celui d’un juge), revient à déterminer les mécanismes de causalité ayant conduit à ce comportement en présence d’un certain nombre de données contextuelles. Cela nécessite la constitution préalable d’un cadre interprétatif, constitué par les hypothèses ou points de vue adoptés par les différentes disciplines des sciences sociales[6]. Or, la seule corrélation statistique entre deux événements est insuffisante pour expliquer les facteurs réellement causatifs[7]. Appliqué au droit et aux décisions judiciaires, on mesure immédiatement ce qu’il peut y avoir de scientifiquement erroné et d’idéologique dans l’ambition de tenter de rendre objective la décision des juges grâce à des algorithmes moulinant de l’open data. Fournir une véritable explication d’un jugement nécessiterait une analyse beaucoup plus fine des données de chaque affaire et ne saurait naître spontanément d’une masse de liens lexicaux dans lesquels figure le nom d’un magistrat. Par exemple, le fait qu’un juge aux affaires familiales fixe statistiquement davantage la résidence habituelle d’un enfant chez la mère dans un ressort déterminé ne traduit pas nécessairement un parti-pris de ce magistrat en faveur des femmes, mais s’explique davantage par l’existence de facteurs sociaux-économiques et culturels propres à la population de sa juridiction[8].

3/ Et si la structuration des tuyaux de l’open data était la toute une première priorité ?

Les juges ne cherchent donc pas à être encagoulés comme l’affirmait le Canard Enchaîné le 25 avril 2018, ils n’ont pas à rougir pas de leurs décisions. Mais ils craignent des explications faussées et biaisées des décisions de justice qu’ils rendent. Car un profilage des juges qui confondrait outrancièrement corrélation et causalité viendrait profiter à des grands opérateurs économiques, à même de manipuler (dans tous les sens du terme) cette information… et probablement au détriment des citoyens que nous sommes.  

L’on perd malheureusement de vue la toute première priorité dans cette affaire : arriver à structurer les tuyaux de l’open data, puisque, à ce jour, ils n’existent que très partiellement. Il y a là un défi technique majeur à parvenir tout simplement à regrouper toutes les décisions judiciaires dans un format nativement numérique et à les pseudonymiser, défi pour lequel il conviendrait avant tout de donner des moyens substantiels au ministère de la justice, à la Cour de cassation et aux juridictions. Bien sûr, les éditeurs et des legaltechs préféreraient des flux « intègres » (c’est-à-dire des décisions dont les données nominatives ne seraient pas occultées) pour opérer eux-mêmes une pseudonymisation, mais il sera bien temps d’ouvrir progressivement les vannes de ce que l’on déverse dans la jungle numérique une fois que l’on aura clarifié, par un travail scientifique rigoureux soucieux de l’intérêt général, si l’on peut arriver à donner du sens et de la valeur à ces données sans compromettre quelques principes fondamentaux.


Les présents développements focalisent principalement sur les décisions judiciaires et le nom des magistrats – les problèmes demeurent identiques en ce qui concerne les décisions des juridictions administratives et il ne sera mentionné que l’expérience menée par le sitesupralegem.fr ; les enjeux spécifiques de la présence du nom des greffiers, des avocats ou d’autres professionnels ne seront pas développés ici mais demeurent également à questionner.

[1] L’article 454 du Code de procédure civile par exemple dispose : « Le jugement est rendu au nom du peuple français. Il contient l’indication : de la juridiction dont il émane ;  du nom des juges qui en ont délibéré ; de sa date ; du nom du représentant du ministère public s’il a assisté aux débats ; du nom du secrétaire ; des nom, prénoms ou dénomination des parties ainsi que de leur domicile ou siège social ; le cas échéant, du nom des avocats ou de toute personne ayant représenté ou assisté les parties ; en matière gracieuse, du nom des personnes auxquelles il doit être notifié. »

[2] La pseudonymisation ou « anonymisation réversible » consiste à remplacer un attribut par un autre dans un enregistrement. La personne physique n’est donc plus directement identifiable par son nom (qui est remplacé par exemple par un X…) mais elle est toujours susceptible d’être identifiée indirectement, par croisement de plusieurs données.

[3] Article R. 433-3 du code de l’organisation judiciaire

[4] L’open data des décisions de justice, mission d’études et de préfiguration sur l’ouverture au public des décisions de justice, Rapport à Madame la garde des Sceaux, ministre de la justice, novembre 2017 : http://www.justice.gouv.fr/publication/open_data_rapport.pdf

[5] M. Benesty, L’impartialité des juges mise à mal par l’intelligence artificielle in Village de la justice, Tribunes et point de vue du 24 mars 2016 ; www.village-justice.com/articles/impartialite-certains-juges-mise,21760.html – le contenu du site Supralegem.fr n’est désormais plus accessible et l’adresse redirige vers dalloz.fr

[6] Sur cette question, V. N. Regis, Juger, est-ce interpréter ? : Cahiers Philosophiques, Canopé éd., 2016, n° 147, p. 36-37.

[7] Voir le site internet Spurious Correlation qui recense un grand nombre de corrélations fallacieuses, tel qu’un taux de correspondance à plus de 99% entre 2000 et 2009 entre le nombre divorces dans l’Etat du Maine et la consommation de margarine par habitant – http://tylervigen.com/spurious-correlations

[8] Pour de plus amples développements, voir Y. Meneceur, Quel avenir pour une justice prédictive : JCP G 2018, doctr.190.