Intelligence artificielle et procès pénal

Quelle utilisation de l’IA dans le procès pénal en Europe ?

Les passionnés de science fiction n’aurons sans doute raté un chef d’œuvre du genre, le célèbre Minority Report de Steven Spielberg. En 2054, l’agent John Anderton (Tom Cruise) est à la tête d’une unité de police très particulière, la division « Pré-Crime », capable d’identifier l’auteur d’un crime avant le passage à l’acte grâce aux prédictions des trois créatures, dotées de pouvoirs de prévoyance surnaturelle, dénommées « Pré-Cogs ». Un jour, alors qu’il revient d’une mission périlleuse, John apprend par hasard qu’il fait lui-même l’objet d’une prédiction des « Pré-Cogs » et qu’il est censé tuer un homme qu’il ne connaît pas. Il s’enfuit et tente de comprendre comment «Pré-Crime» a pu le désigner comme un tueur…..

Est-ce que notre réalité est aussi éloignée de ce scénario de science fiction ? Pas tout à fait. L’entrée des techniques d’intelligence artificielle (IA), et notamment celles d’apprentissage machine (machine learning) dans le champ pénal a rendu en effet possible une certaine dose de prédiction : si l’identification préalable de l’auteur d’une infraction pénale demeure impossible, l’IA permettrait en revanche d’évaluer les probabilités de réitération d’une conduite criminelle par une personne soumise à une privation de liberté par l’autorité publique, moyennant des instruments de « vérification du risque » (risk assessment tools). Utilisés à large échelle aux Etats Unis, ceux-ci commencent à faire l’objet d’expérimentation en Europe, notamment au Royaume Uni.

Dans ces systèmes de common law en effet, le niveau de risque  de récidive (faible, moyen élevé) fait partie des critères de détermination de la peine ou de la mesure de réhabilitation[1] : on considère que les criminels à « risque faible » doivent recevoir une peine de prison plus courte ou bénéficier de mesures alternatives à la détention, alors que ceux considérés à « haut risque » devraient aller en prison. Les outils d’évaluation du risque ont été conçus pour aider le juge dans le processus décisionnel et leur domaine d’utilisation s’est progressivement élargi au fil du temps ; employés à l’origine en phase d’exécution de la peine (pour évaluer l’opportunité d’octroyer la libération conditionnelle ou d’assigner la personne concernée à des services de probation), ils sont couramment utilisés dans la phase de  détermination de la peine (sentencing) et d’application de la garde à vue dans plusieurs états fédérés[2]. Leurs constats ne sont pas contraignants pour le juge.

L’IA a permis de développer des instruments d’évaluation du risque de « nouvelle génération » qui se  fondent sur l’analyse statistique de grands ensembles de données agrégées relatives aux conduites criminelles.  Un échantillon de décisions de privation des libertés est sélectionné et des corrélations sont par la suite établies avec des « facteurs de risque » relatifs aux individus touchés par ces décisions. Il peut s’agir par exemple du sexe, de l’âge, de la scolarité, de l’état civil et du statut professionnel de l’individu, de sa situation patrimoniale, de ses antécédents criminels, de son domicile et de sa stabilité résidentielle. Un algorithme est par la suite élaboré qui, en s’appuyant sur des modèles conçus avec des techniques d’« apprentissage machine », détermine la probabilité statistique de récidive de la personne concernée en fonction du nombre de facteurs de risque pertinents. Plus celle-ci partage des facteurs de risque avec des individus ayant récidivé (selon les statistiques élaborées), plus l’algorithme évaluera comme étant élevé son risque de réitération de l’infraction.

D’après leurs partisans, l’intérêt de la mise en place de ces outils réside dans leur capacité de donner des éléments de contexte supplémentaires au juge, lui permettant de combiner l’information dont il dispose avec une estimation de la conduite probable de l’individu dans l’avenir, fondée sur des données statistiques relatives à des cas analogues.  Leurs détracteurs relèvent au contraire les criticités existantes vis-à-vis des principes d’égalité de traitement, d’individualisation et de proportionnalité de la peine : le comportement passé d’un certain groupe de personnes finirait en effet pour influencer le sort d’un individu qui, en tant qu’être humain unique, est inséré dans un contexte social spécifique. Il a reçu une éducation et développé des compétences propres et ne peut être jugé qu’en fonction de son propre degré de culpabilité et des motivations spécifiques qui l’ont conduit à commettre une infraction[3].

La question de l’objectivité de ces outils, censés contrer la subjectivité du juge, fait aussi l’objet de débat. Fondées uniquement sur un traitement statistique de données relatives aux infractions passées, insensibles aux sentiments et aux préjugés, les prédictions de l’IA seraient plus fiables que celles de l’être humain. Cet argument, qui paraît séduisant à première vue, néglige que le biais sont souvent incorporés dans les données elles-mêmes.

Un exemple pertinent à cet égard est lié à un des facteurs qui revêt une grande importance dans tous les outils d’évaluation du risque, à savoir celui de l’histoire criminelle. Son évolution peut en effet dépendre des décisions des pouvoirs publics (par exemple, où déployer la police, qui arrêter, quel type de sanctions appliquer)  qui pourraient à leur tour être tâchées de biais sociétaux ou raciaux. Si par exemple certaines communautés sont plus visées que d’autres par des mesures de police, les antécédents criminels des personnes faisant parties de ces communautés seront en conséquence plus nombreux.

Ces outils ne feraient donc que reproduire des disparités raciales et socio-économiques déjà existantes dans nos sociétés, comme le montre bien l’enquête menée par l’ONG Pro-Publica en 2016[4] par rapport à COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), un instrument d’évaluation du risque utilisé dans plusieurs états fédérés américains:  les populations afro-américaines se sont vues attribuer un taux de risque de récidive deux fois supérieur à celui des autres populations dans les deux ans qui suivaient l’application de la peine ; inversement l’algorithme considérait que d’autres populations semblaient beaucoup moins susceptibles de réitérer une infraction. Des outils donc aux effets discriminatoires et déterministes, qui finissent pour pénaliser certaines communautés ou individus plus que d’autres.

La prétendue impartialité et objectivité d’une justice administrée par les algorithmes se heurterait donc à la « contamination » des statistiques et des données ; à l’apparence « stérilisée » par l’utilisation de méthodes mathématiques et statistiques, elle finirait pour légitimer des injustices, voir les amplifier par le biais d’une inégalité de traitement répétée par les tribunaux.

Est-ce que l’IA serait plus exacte dans ses déterminations qu’un juge humain ? Quoiqu’en capacité de traiter et d’établir des liens entre des grandes masses de données, et d’une manière plus performante qu’un être humain, on ne peut pas conclure pour autant à une supériorité de l’IA sur le plan des résultats. Les fautes plus fréquemment produites par les outils d’évaluation du risque sont celles relatives à l’inclusion d’un individu dans une catégorie de risque erronée. L’IA peut en effet produire :

  • Des « faux négatifs » que nous pouvons qualifier d’erreur «Darth Vader»[5] – c’est-à-dire qu’une personne est libérée en étant considérée à faible risque, alors qu’elle elle est dangereuse, et commet par la suite une infraction ;
  • Des « faux positifs » que l’on pourrait inversement qualifier d’erreur «Han Solo» – c’est-à-dire qu’une personne est détenue sur la base d’un jugement de dangerosité, mais en fait ne commettrait aucun tort si elle était libérée.

Des exemples concrets de catégorisation erronée ont été donnés dans le cadre de l’enquête de ProPublica[6] ; toutefois, il y a un risque que des situations analogues puissent se produire aussi en Europe. Depuis 2017, la police de Durham, en Angleterre, utilise dans le cadre de la garde à vue un outil d’évaluation du risque en tant qu’aide à la décision. Comme ses homologues américains, HART (Harm Assessment Risk Tool) détermine le niveau du risque (faible, moyen, élevé) du mis en cause ; ses conclusions ne sont pas contraignantes pour la police. Des articles parus récemment dans le milieu académique  et dans la presse[7]  ont mis en relief que l’algorithme à la base de HART aurait été construit sur la base d’un « compromis entre les faux positifs et les faux négatifs », avec l’objectif de réduire le plus possible le nombre de faux négatifs et ainsi éviter que des suspects soient classifiés à risque faible ou moyen alors qu’ils sont dangereux. Pour parvenir à ce résultat, l’algorithme étiquetterait des suspects comme à risque élevé de manière assez libérale ; en conséquence, des personnes qui sont en réalité moyennement ou peu dangereuses pourraient être incluses dans la catégorie à haut risque, ce qui soulève des interrogations quant à la proportionnalité de cette mesure, ayant des effets sensibles sur la liberté personnelle, avec le but recherché de protection de la société.

Cet exemple montre comment l’IA peut être programmée pour pallier aux erreurs de jugement ou aux doutes de l’humain : dans ce cas particulier, elle servirait à aider les policiers à détecter des cas qu’ils pourraient manquer ou qu’ils hésitent à considérer comme présentant un risque élevé. Or, la recherche universitaire a relevé que les avis de l’humain et de l’IA en la matière peuvent considérablement diverger : sur les 888 exemples de garde à vue étudiés[8], les policiers étaient d’accord avec les prévisions de l’IA désignant des suspects à haut risque seulement dans le 10% des cas (accord qui se situait au 70% et 52 % lorsque le niveau de risque était considéré modéré ou faible). Inversement l’IA était d’accord avec les prévisions des policiers dans le 24% (risque élevé), 62% (risque modéré) et  49 % des cas (risque faible).

La recherche précitée suggérait que les policiers, en l’absence de certitudes, préféraient ne pas retenir une qualification ayant un impact considérable sur la liberté personnelle. Ce qui nous renvoie à la question de la responsabilité (accountability) dans la prise de décisions : à différence d’une machine, des officiers de police doivent pouvoir expliquer les raisons à fondement d’une décision de privation de liberté et rendre compte de leur processus décisionnel.

Une autre question importante, étroitement liée à la précédente, est celle de la place de ces outils dans le processus décisionnel : comme relevé précédemment, il s’agit d’instruments d’aide à la prise de décision, donnant des informations supplémentaires – à pondérer avec d’autres éléments – qui devraient permettre un exercice plus réfléchi du pouvoir discrétionnaire du juge. Les prévisions d’évaluation des risques ne devraient pas, en théorie, être déterminantes et se substituer aux décisions du juge. Peut-on néanmoins exclure le risque de « dépendance » du juge par rapport aux constats de l’algorithme, d’autant plus lorsque ceux-ci sont présentées comme robustes et fiables et utilisés à large échelle dans le système judiciaire? Le risque ne peut, selon nous, être écarté, et notamment dans l’hypothèse d’affaires sensibles où les pressions sur le juge pourraient être considérables, ou dans les systèmes où les garanties statutaires d’indépendance seraient insuffisantes.

Et encore, quelle maîtrise a réellement le juge sur les instruments d’évaluation du risque, notamment  lorsqu’ils sont élaborés par des entreprises privées ? Comment peut-il vérifier si les prévisions sont prives d’erreurs? La propriété privée de l’instrument ne permet pas d’accéder aux secrets de l’IA.  Peut-on exiger que, lorsque la liberté personnelle est en jeu, ce droit puisse être limité ? Une mise en balance doit être recherchée : il faut que les outils d’évaluation du risque soient transparents, avec un code source permettant aux juges, aux avocats de la défense et aux communautés de comprendre et d’évaluer l’algorithme. Cette transparence devrait d’abord reposer sur l’engagement et l’éthique des acteurs privés, mais un cadre régulateur des pouvoirs publics paraît également souhaitable, notamment dans un domaine aussi sensible que le droit pénal. Une transparence qui permettrait par ailleurs un respect effectif de l’égalité des armes et des droits de la défense[9] : la partie concernée devrait avoir accès et pouvoir remettre en cause la validité scientifique, le poids donné aux différents éléments de l’algorithme et les éventuelles conclusions erronées de celui-ci.

Faudrait-il envisager une utilisation différente de l’IA dans le domaine pénal ?

Eu égard aux risques d’erreur et d’atteinte aux libertés évoqués ci-dessus, il nous semble important de changer de paradigme. Il faut notamment passer d’une approche « prédictive » qui se révèle déterministe et punitive à une qui soit plus respectueuse des droits fondamentaux, dans laquelle le juge joue un rôle fondamental en matière d’individualisation de la peine.

Celle-ci serait déterminée sur la base d’éléments objectifs de personnalités (formation, emploi, prise en charge médico-sociale régulière) sans autre forme d’analyse que celle opérée par des professionnels spécifiquement formés, comme les agents de probation par exemple. Les capacités de l’IA de traiter des énormes quantités de données pourraient ainsi être utilisées en faveur de l’individu, et notamment pour centraliser et collecter des informations de caractère économico-social, ou sanitaire le cas échéant[10] qui sont détenues auprès d’institutions et organismes public différents.  Ces informations, rapidement collectées par l’IA, pourraient être extrêmement utiles à un juge devant parfois statuer dans des délais extrêmement courts (par exemple dans le cadre des procédures dites de « comparution immédiate » en France ou de « jugement immédiat » en Italie).

En guise de conclusion, l’IA doit rester au service de l’humain, renforcer et ne pas diminuer ses droits, et se fonder sur les principes éthiques de transparence et de responsabilité, notamment dans le domaine pénal.

P.S. Dans Minority Report, Tom Cruise parvient à prouver son innocence en démontrant que le système_ « Pré-Crime » avait été manipulé par son créateur, Max von Sydow.


Notes

[1] Les systèmes continentaux se concentrent inversement sur la responsabilité pénale et la gravité de l’infraction lors de la détermination de la peine, mais la dangerosité du criminel et  le risque de récidive peuvent rentrer en ligne de compte dans la détermination de la sanction lorsqu’on considère les circonstances aggravantes du crime.

[2] Danielle Kehl, Priscilla Guo, and Samuel Kessler, Responsive Communities, “Algorithms in the Criminal Justice System: Assessing the Use of Risk Assessment in Sentencing”, disponible au lien suivant, visité le 20/072018: https://dash.harvard.edu/bitstream/handle/1/33746041/2017-07_responsivecommunities_2.pdf?sequence=1

[3] Aleš Završnik, Big Data, crime and social control, © 2018 – Routledge, page 197.

[4] https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing, visited on 19/07/2018

[5] Les fans de Star Wars se rappelleront que dans épisode VI, « Le Retour du Jedi » Darth Vader tue l’empereur. Il y a donc une rédemption de ce personnage que, dans le cadre de cette analyse, nous avons placé précédemment dans la catégorie « à haut risque ». Une rédemption qui n’appartient pas uniquement au monde de la fiction mais qui est devenue un objectif important des systèmes pénaux contemporains : les principes de réinsertion et de réintégration des personnes condamnées, affirmés aussi à plusieurs reprises par la Cour européenne des droits de l’homme, sont devenus des standards importants dans le droit pénal européen (voir Vinter et autres c. Royaume-Uni [GC], nos 66069/09 et 2 autres, §§ 103-122, CEDH 2013 (extraits), et plus récemment Hutchinson c. Royaume-Uni [GC], no 57592/08, §§ 42-45, 17 janvier 2017)

[6] Pour le même type d’infraction (vol), l’algorithme a erronément considéré une femme noire à haut risque et inversement, un homme blanc à faible risque, alors que ce dernier avait un casier judiciaire plus important. Dans les deux années suivantes la femme n’a pas récidivé alors que l’homme a été condamné à une peine de prison ferme de huit ans pour effraction et vol.

[7] Big Brother Watch, « A Closer Look at Experian Big Data and Artificial Intelligence in Durham Police », paru le 6 avril 2018, et  Marion Oswald, Jamie Grace, Sheena Urwin, Geoffrey Barnes « Algorithmic Risk Assessment Policing Models: Lessons from the Durham HART Model and ‘Experimental’ Proportionality », Information & Communications Technology Law, University of Cambridge, August 31, 2017, disponible au lien suivant visité le 23/07/2018:

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3029345

[8] Sheena Urwin, Algorithmic case forecasting of offender dangerousness for police custody officers: an assessment of accuracy for the Durham Constabulary model, page 72, disponible au lien suivant visité le 23/07/2018: http://www.crim.cam.ac.uk/alumni/theses/Sheena%20Urwin%20Thesis%2012-12-2016.pdf

[9] Regner c. République tchèque [GC], no 35289/11, §§ 146-149, 19 septembre 2017

[10] Par exemple la recherche d’emploi, l’engagement dans un traitement de lutte à la dépendance causée par des drogues ou l’alcool.