L’open data en trois définitions

Données brutes, méthodes probabilistes et politique publique : les trois visages de l’open data

Le projet de loi de programmation 2018-2022 et de réforme pour la justice, présenté le 20 avril 2018 en Conseil des ministres, propose de réécrire dans son article 19 les dispositions introduites par les articles 20 et 21 de la loi pour une République numérique promulguée… le 7 octobre 2016.

Cette intense production législative ne concerne pas les dernières réformes procédurales ou territoriales de la justice mais a pour objet l’ouverture en open data des décisions des tribunaux. L’intensité des débats dans ce domaine pourrait paraître inattendue au vu des principes démocratiques invoqués a priori : pourquoi s’opposer à l’amélioration de la transparence de la justice en garantissant la disponibilité, le partage et la réutilisation des décisions juridictionnelles ? Le principe général de transparence de l’action publique, porté notamment dans un cadre international par le Partenariat pour un Gouvernement Ouvert (PGO), se heurte toutefois à une problématique majeure : la confusion d’un grand nombre de notions en utilisant un vocabulaire à la mode. Or sans vocables communs, il semble ne pas y avoir de pensée claire possible et – naturellement – de convergence vers une stratégie d’emploi des opportunités offertes par le numérique dans l’intérêt de la justice.

1/ L’open data au sens strict : des données brutes téléchargeables, sous licence non-onéreuse

Au sens strict, l’open data c’est une base de données informatique brute, librement téléchargeable, et dont la licence autorise à en réemployer son contenu sans le paiement d’une redevance à son producteur. Même si nous ne traiterons dans ce billet que des données publiques, les données ouvertes peuvent indifféremment provenir d’une source publique ou privée. En ce qui concerne le secteur public, cette base de donnée ouverte est naturellement tout à fait distincte des autres modes de publicité déjà prévus par les textes législatifs et réglementaires. Pour les décisions des tribunaux, l’open data est une forme autonome de présentation des données avec ses objectifs propres et ne se substitue pas au formalisme procédural habituel (articles 454 et suivants du code de procédure civil par exemple).

Le centre névralgique de l’open data en France se retrouve sur l’un des sites des services du Premier ministre (http://data.gouv.fr) où des centaines de bases de données sont déjà téléchargeables. Ainsi la base d’adresses nationale, les codes postaux, le cadastre, le registre des entreprises, des décisions des  juridictions administratives sont accessibles d’un simple clic. Mais quand on parle d’accessibilité, on ne parle pas d’intelligibilité. Ces bases de données brutes sont en effet totalement incompréhensibles pour la plupart des citoyens et ne présentent d’intérêt que pour des techniciens sachant les retraiter. On qualifie souvent les données de pétrole du XXIème siècle : l’open data est d’une certaine manière du pétrole brut gratuit à destination de raffineurs.

Prêter des vertus de transparence à l’open data, c’est donc d’abord espérer que des tiers puissent s’en saisir pour raffiner les données et créer du sens. Mais avec quelles méthodes ? C’est l’objet d’une interprétation plus large du terme open data.

2/ L’open data au sens large : des nouvelles méthodes de traitement de l’information

Le terme open data peut aussi être employé de manière large pour englober les données brutes mises à disposition et leur traitement avec des méthodes extrêmement avancées : algorithmes, data science, data mining, intelligence artificielle, machine learning… la sophistication des termes entretient une totale confusion car, comme dans une œuvre de science-fiction, la technologie se mêle parfois aux fantasmes.

Pour se départir d’une approche simplement intuitive, il faut revenir aux fondements des sciences et technologies actuellement employées : ces traitements se fondent sur des approches probabilistes qui n’ont rien révolutionné dans le champ théorique mais qui profitent de capacités de stockage et de calcul considérablement améliorées ces dernières années. Ce qui semble nouveau, c’est que ces nouvelles capacités ont permis des traitements massifs de données par une approche corrélative et inductive au détriment des approches  causales et descriptives : ainsi, plutôt que de tenter de quantifier le réel et de le modéliser, l’exploitation de grands ensembles de données sont désormais censés révéler des phénomènes complexes par la présence de corrélations auparavant imperceptibles[1].

Dans le champ de l’exploitation des décisions de justice, les débats sur l’open data se sont donc aussi portés sur l’exploitation des données mises à disposition avec ces approches inductives (voire prédictives) : pourrait-on révéler de la masse des décisions un sens nouveau de l’application de la loi ? En se fondant sur le nom des juges, arriverait-on à révéler des biais et un manque d’impartialité ?

3/ L’open data en tant que politique publique

Et c’est là où l’open data n’est plus un simple instrument de transparence mais devient porteur d’une véritable politique publique aux termes de laquelle se dégagerait une « norme issue du nombre », s’imposant quasiment aux juges  comme une nouvelle source du droit. Une politique où le juge, se sachant scruté, serait plus sensible à la discipline imposée par les juridictions supérieures.

A ce stade, il ne s’agit pas de se prononcer pour ou contre de nouveaux projets de fonctionnement de la mécanique de production des décisions (ce champ d’opportunité appartient à un débat public démocratique pour savoir ce que l’on veut faire du système judiciaire), mais de constater que les objectifs recherchés se fondent sur des approches parfois discutées entre les experts (citons par exemple la distinction connue entre les méthodes bayésiennes les méthodes fréquentistes depuis le siècle des Lumières[2]).

En annonçant que les juges deviendraient « encagoulés » [3] du fait de l’anonymisation (ou la  pseudonymisation) de leurs noms dans les bases de données brutes ouvertes, il y a donc une erreur de compréhension majeure qui conduit à occulter le réel débat qui devrait impérativement s’opérer. Estime-t-on sérieusement que nous sommes aujourd’hui en mesure de créer du sens à partir de méthodes inductives sur la base de décisions juridictionnelles dont on connaît les mérites mais aussi les défauts ? Défauts parmi lesquels on pourrait citer le caractère lapidaire ou obscur de certaines motivations… Par ailleurs, traiter le nom des juges ainsi ne conduirait-il pas à imaginer dans de possibles corrélations des faits n’ayant aucun fondement sérieux : par exemple des droits de garde plus fréquemment attribués aux mères ne révèlent pas nécessairement un parti pris du magistrat.

Les annonces prophétiques, comparant par exemple la justice aux majors des industries musicales des années 2000 ou annonçant la disparition de la justice si elle ne s’hybridait pas avec les méthodes probabilistes, sont donc à prendre avec recul. Penser une politique d’open data pour la justice impose un recours à des approches pluridisciplinaires scientifiquement fondées (droit, théorie du droit, économie, sociologie, mathématiques, statistiques, informatique), nourries de débats et d’expérimentations, à même d’enrichir un débat public éclairé. En somme, être en mesure de choisir collectivement dans quel monde nous souhaitons vivre.


Aller plus loin ?

Retrouvez l’entretien avec François Paychère au sujet de l’open data sur le podcast  des temps électriques, disponible sur Amicus Radio.

 

 


Notes

[1] C. Anderson, The end of theory. The data deluge makes the scientific method obsolete, Wired, 2008.
[2] Voir par exemple C. Fauré, Deux visages du calcul des probabilités : bayésien et fréquentiste, 2013.
[3] Des juges encagoulés ?, Le Canard Enchaîné, 25 avril 2018.

Chronique de l’émission “Télé-audience”

Corps présent ?

Invité : Christian Licoppe, Professeur de Sociologie des Technologies d’Information et de Communication à Telecom Paris Tech

« Je plaide corps présent ». Celle délicieuse formule indiquant qu’en présence de son client dans la salle d’audience l’avocat envisage de développer largement ses conclusions pour justifier ses honoraires, est-elle appelée à disparaître dans les limbes de l’archéologie judiciaire ?

La visioconférence a en effet fait irruption dans les salles d’audience dès la fin des années 90 pour être « déployée » comme l’on dit aujourd’hui largement dans tous les tribunaux.

Mais quel bilan en dresser à ce stade ? Quelles évolutions en attendre avec la banalisation des moyens de communication vidéo (je pense bien entendu à Skype, Facetime et toutes ces applications embarquées dans nos smartphones qui nous donnent un réel sentiment d’ubiquité) ?

Un récent rapport de l’Institut Montaigne dresse par le menu un ensemble de recommandations pour faire entrer les tribunaux dans l’ère numérique ou, plus exactement, adapter le service public offert à l’actuelle demande en justice… et l’une des premières de ces recommandations invite à recourir à des procédures numérisés ou des échanges vidéos pour un certain nombre de litiges qui seraient adaptés à ce mode de traitement.

Mais s’adresse-t-on de la même manière à un écran qu’à un être humain ? L’architecture des tribunaux et des salles d’audience, qui ne doit rien au hasard, peut-elle transposable (avec le rituel attaché) à un univers dématérialisé.

Car le procès reste la rencontre particulière d’un temps et d’un lieu donnés. Evidemment cet outil technologique promet de ne créer qu’un seul espace-temps en connectant deux lieux hétérogènes, mais ces lieux continuent à compter pour chacun des acteurs du procès.

Dans un procès classique, le rituel se joue comme une mise en scène théâtrale, invitant tous les acteurs à en adopter les codes. Créer de l’ordre à partir du désordre au travers d’un rite s’imposant à tous, tel est l’objectif de  l’audience.

Or, Antoine Garapon rappelait dans « Bien juger » que « La justice est souvent réduite au droit, c’est-à-dire à du texte, est présentée amputée d’une partie d’elle- même. ». Le recours à la visioconférence ne procéderait-il pas de la seule exigence pratique (je n’ai pas dit productiviste) réduisant la rencontre judiciaire à un rendez-vous comme un autre. Voire à un simple échange dématérialisé sur chat judiciaire.

L’autre réflexion a trait à la sémantique de l’image. Les recrutements à l’école nationale des greffes ne requièrent pas (encore) de disposer d’une formation de cadreur ou de réalisateur. Et pourtant… un cadrage n’en vaut pas un autre, la mise en scène emporte du sens. Car l’enjeu n’est pas esthétique mais tient à la neutralité de la transposition de l’image. Une lumière dure sur un visage émacié fera ressortir la dureté d’un individu ; que pourra en penser un jury qui ne verrait plus l’expression corporelle entière ?

On le voit : on ne se trouve pas face à un simple outillage commode pour offrir un nouveau service. On transforme l’acte même de juger.

Ecoutez l’entretien avec Christian Licoppe, Professeur de Sociologie des Technologies d’Information et de Communication à Telecom Paris Tech, sur Amicus Radio.

 

Chronique de l’émission “Open data”

Open data : données ouvertes pour monde ouvert… ou totalitaire ?

Invité : François Paychère, magistrat à la Cour des comptes de Genève

Le XXIème siècle sera transparent ou ne sera pas.

Un vent nouveau semble en effet souffler ces dernières années sur les politiques publiques occidentales, avec un certain nombre de concepts, où le rapport des citoyens avec leurs gouvernants paraît devoir se transformer d’une relation verticale (contrôle / soumission) à un rapport plus horizontal, dans une totale transparence de l’action publique.

La déclaration des droits de l’homme et du citoyen de 1789 en posait évidemment les bases en imposant à tout agent public de rendre compte de son administration. Mais les politiques d’ouverture des données nous conduisent sur un bien autre chemin.

Redéfinissons rapidement quelques concepts utilisés (et parfois maltraités dans les débats) : une première confusion est fréquente entre accès à l’information et accès aux données.

En effet, un certain nombre d’informations publiques, nécessitant une large publicité, bénéficient déjà des nouvelles technologies pour assurer leur diffusion : ainsi Légifrance est le premier canal dématérialisé d’informations certifiées, où l’on trouve non seulement des textes législatifs ou règlementaires, que de la jurisprudence ou des nominations à des emplois publics. Mais cette information unitaire, même disponible sur internet, est totalement distincte de l’accès direct à des données organisées et constituées en base, pouvant être traitées par un ordinateur.

L’open data concerne donc seulement la diffusion de ces bases qui, agglomérées en tout ou partie avec d’autres sources structurées constituent le big data.

La seconde confusion consiste à confondre l’ouverture des données elles-mêmes avec leur moyens de traitement. Nombre de discours sur cette ouverture concernent en réalité les traitements opérés par diverses méthodes avancées que l’on qualifie globalement de data science.  Justice prédictive avec de l’intelligence artificielle, moteurs de recherches avancés avec divers critères, robots juristes sont autant d’applications algorithmiques qui sont nourries de données mais n’ont rien à voir avec la politique d’ouverture elle-même.

Les données c’est le pétrole et donc le carburant du XXIème siècle, les algorithmes le moteur.

L’ouverture de ces données ne s’opère donc pas de manière si anodine que cela : alors oui, quand l’Open Government Partnership (lancé en 2011 sur la base d’un accord multilatéral avec 70 pays à bord, soutenu par le Tides Center, organisation philantropique américaine) déclare solennellement que cette gouvernance 2.0 ou 3.0 (je m’y perds) va favoriser la transparence de l’action publique, prévenir la corruption, associer les citoyens aux politiques publiques, on peut y lire un nouvel achèvement pour la démocratie.

Mais concrètement qui dans la société civile aura les moyens de traiter ces données. Spécifiquement pour les décisions judiciaires, qui va bénéficier directement de l’ouverture de ce marché. Et, même si l’on ne discutera pas aujourd’hui d’une application spécifique, quelles transformations, dans la construction de la jurisprudence par exemple, anticiper ?

Enfin, comment articuler cette ouverture avec le règlement européen sur la protection des données, qui entrera en vigueur le 25 mai 2018 ? Puisque open data ne rime pas nécessairement avec données anonymes… le nom des juges administratifs français (en tout cas de certains présidents de formation de jugement) sont déjà ouverts !

Ecoutez l’entretien de François Paychère, magistrat à la Cour des comptes de Genève, sur Amicus Radio.

Chronique de l’émission “La justice prédictive”

Quel avenir pour la justice dite prédictive ?

Invité : Bruno Cathala, juge à la Cour de cassation

La justice prédictive a été un des grands sujets de buzz de l’année dernière… j’emploie le passé car une expérimentation a pris fin en octobre 2017 dans les cours d’appel de Lille et de Rennes et le constat semble sans… appel : Cela ne servirait à rien. Ou presque.

Il faut dire que les promesses de départ étaient ambitieuses : challenger, comme l’on dit aujourd’hui, l’impartialité du juge, lever le voile sur un avenir rempli d’aléa judiciaire, conseiller – dissuader même – le justiciable d’aller rencontrer un juge car, tout bien pesé, son affaire ne vaudrait pas tripette.

Cet enthousiasme excessif, hérité de la réussite des systèmes prédictifs des pays de common law, s’est heurté à une réalité tout autre sur le continent, qui ne tient pas à la légendaire résistance au changement des français, qui auraient la baguette coincée sous leur bras et leur béret vissé sur la tête.

La machine apprenante, l’intelligence artificielle, ce bazar de silicone qui sait maintenant construire de manière autonome ses propres règles de gestion n’est effet pas très souple aux changements complets de paradigmes et de concepts. Prévoir la météo à plusieurs jours de distance reste complexe par le nombre d’éléments à prendre en compte mais les règles physiques ne sont pas totalement bouleversées au hasard de la volonté des humains. Apprendre à jouer au Go est autrement plus profond que jouer aux échecs mais – là encore – des règles solides servent de fondement.

Que penser de la solidité de la loi et des règles fondatrices du droit continental ? Très simplement que si la loi change, toute la construction jurisprudentielle s’écroule. Donc d’emblée, l’affaire partait mal.

Ajoutons à cela un détail qui n’en est pas un : qu’est-ce que ces machines apprennent exactement en ingurgitant des tonnes d’affaires à l’intérêt jurisprudentiel extrêmement variable (pour ne pas être désagréable avec leurs producteurs).

Rien.

Enfin si, cela peut nourrir des calculs statistiques (nous sommes d’ailleurs plus proches de la prévision que de la prédiction)… mais croire que les intelligences artificielles apprennent ainsi la règle de droit revient à envisager que mon chat – qui est fort sympathique – sait lire l’heure car il anticipe en miaulant le moment de l’arrivée de ses croquettes.

Les concepteurs des intelligences artificielles admettent d’ailleurs volontiers cette limite : ils savent avoir perdu la compréhension de ce qui se passe dans la boîte noire des intelligences artificielles… et d’ailleurs ils ne s’en émeuvent que très modérément !

Pourquoi ?  Car seul le résultat compte ! Par petits pas, test de toutes les possibilités et des milliards de vies consommées, une machine arrive à terminer Super Mario. C’est cela qui compte pour ses concepteurs et non la manière dont elle joue.

Alors on fait quoi de tout cela ? Rien ?

Poursuivez avec l’entretien de Bruno Cathala, juge à la Cour de cassation sur Amicus Radio.