Petite histoire de l’intelligence artificielle…

Ce que nous enseignent les trois âges d’or de l’IA

L’intelligence artificielle (IA) est une discipline jeune d’une soixante d’années, qui est un ensemble de sciences, théories et techniques (notamment logique mathématique, statistiques, probabilités, neurobiologie computationnelle, informatique) qui ambitionne d’imiter les capacités cognitives d’un être humain. Initiés dans le souffle de la seconde guerre mondiale, ses développements sont intimement liés à ceux de l’informatique et ont conduit les ordinateurs à réaliser des tâches de plus en plus complexes, qui ne pouvaient être auparavant que déléguées à un humain.

Cette automatisation demeure toutefois loin d’une intelligence humaine au sens strict, ce qui rend la dénomination critiquable pour certains experts. Le stade ultime de leurs recherches (une IA « forte », c’est-à-dire en capacité de contextualiser des problèmes spécialisés très différents de manière totalement autonome) n’est absolument pas comparable aux réalisations actuelles (des IA « faibles » ou « modérées », extrêmement performantes dans leur domaine d’entraînement). L’IA « forte », qui ne s’est encore matérialisée qu’en science-fiction, nécessiterait des progrès en recherche fondamentale (et non de simples améliorations de performance) pour être en capacité de modéliser le monde dans son ensemble.

Depuis 2010, la discipline connaît toutefois un nouvel essor du fait, principalement, de l’amélioration considérable de la puissance de calcul des ordinateurs et d’un accès à des quantités massives de données.

Les promesses, renouvelées, et les inquiétudes, parfois fantasmées, complexifient une compréhension objective du phénomène. De brefs rappels historiques peuvent contribuer à situer la discipline et éclairer les débats actuels.

1940-1960 : Naissance de l’IA dans le sillage de la cybernétique

L’époque entre 1940 et 1960 a été fortement marquée par la conjonction de développements technologiques (dont la seconde guerre mondiale a été un accélérateur) et la volonté de comprendre comment faire se rejoindre le fonctionnement des machines et des êtres organiques . Ainsi pour Norbert Wiener, pionnier de la cybernétique, l’objectif était d’unifier la théorie mathématique, l’électronique et l’automatisation en tant que « théorie entière de la commande et de la communication, aussi bien chez l’animal que dans la machine » [1]. Juste auparavant, un premier modèle mathématique et informatique du neurone biologique (neurone formel) avait été mis au point par Warren McCulloch et Walter Pitts dès 1943[2].

Début 1950, John Von Neumann et Alan Turing ne vont pas créer le terme d’IA mais vont être les pères fondateurs de la technologie qui la sous-tend : ils ont opéré la transition entre les calculateurs à la logique décimale du XIXème siècle (qui traitaient donc des valeurs de 0 à 9) et des machines à la logique binaire (qui s’appuient sur l’algèbre booléenne, traitant des chaines plus ou moins importantes de 0 ou de 1[3]). Les deux chercheurs ont ainsi formalisé l’architecture de nos ordinateurs contemporains et ont démontré qu’il s’agissait là d’une machine universelle, capable d’exécuter ce qu’on lui programme. Turing posera bien en revanche pour la première fois la question de l’éventuelle intelligence d’une machine dans son célèbre article de 1950 « Computing Machinery and Intelligence[4] » et a décrit un « jeu de l’imitation », où un humain devrait arriver à distinguer lors d’un dialogue par téléscripteur s’il converse avec un homme ou une machine. Pour polémique que soit cet article (ce « test de Turing » n’apparaît pas qualifiant pour nombre d’experts), il sera souvent cité comme étant à la source du questionnement de la limite entre l’humain et la machine.

La paternité du  terme « IA » pourrait être attribué à John McCarthy du MIT (Massachusetts Institute of Technology), terme que Marvin Minsky (université de Carnegie-Mellon) définit comme « la construction de programmes informatiques qui s’adonnent à des tâches qui sont, pour l’instant, accomplies de façon plus satisfaisante par des êtres humains car elles demandent des processus mentaux de haut niveau tels que : l’apprentissage perceptuel, l’organisation de la mémoire et le raisonnement critique ». La conférence durant l’été 1956 au Dartmouth College (financée par le Rockefeller Institute) est considérée comme fondatrice de la discipline. De manière anecdotique, il convient de relever le grand succès d’estime de ce qui n’était pas une conférence mais plutôt un atelier de travail. Seulement six personnes, dont McCarthy et Minsky, étaient restées présentes de manière constante tout au long de ces travaux (qui s’appuyaient essentiellement sur des développements basés sur de la logique formelle).

Il s’agissait peut-être là d’un signal. Si la technologie demeurait fascinante et remplie de promesse (voir notamment dans le domaine judiciaire l’article de Reed C.Lawlor, avocat au barreau de Californie, de 1963 « What Computers Can Do : Analysis and Prediction of Judicial Decisions »), l’engouement est retombé au début des années 1960. Les machines disposaient en effet de très peu de mémoire, rendant malaisé l’utilisation d’un langage informatique. On y retrouvait toutefois déjà certains fondements encore présents aujourd’hui comme les arbres de recherche de solution pour résoudre des problèmes : l’IPL, information processing language,  avait permis ainsi d’écrire dès 1956 le programme LTM (logic theorist machine) qui visait à démontrer des théorèmes mathématiques.

Herbert Simon, économiste et sociologue, a eu beau prophétiser en 1957 que l’IA arriverait à battre un humain aux échecs dans les  10 années qui suivraient, l’IA est entrée alors dans un premier hiver. La vision de Simon s’avérera pourtant juste… 30 années plus tard.

 

1980-1990 : Les systèmes experts

En 1968 Stanley Kubrick réalisera le film « 2001 l’Odyssée de l’espace » où un ordinateur – HAL 9000 (distant que d’une seule lettre de celles d’IBM) résume en lui-même toute la somme de questions éthiques posées par l’IA : arrivée à un haut niveau de sophistication, celle-ci représentera-t-elle un bien pour l’humanité ou un danger ? L’impact du film ne sera naturellement pas scientifique mais il contribuera à vulgariser le thème, tout comme l’auteur de science-fiction Philip K. Dick, qui ne cessera de s’interroger si, un jour, les machines éprouveront des émotions (Les androïdes rêvent-ils de moutons électriques ?).

C’est avec l’avènement des premiers microprocesseurs fin 1970 que l’IA reprend un nouvel essor et entre dans l’âge d’or des systèmes experts.

La voie avait été en réalité ouverte au MIT dès 1965 avec DENDRAL (système expert spécialisé dans la chimie moléculaire) et à l’université de Stanford en 1972 avec MYCIN (système spécialisé dans le diagnostic des maladies du sang et la prescription de médicaments). Ces systèmes s’appuyaient sur un « moteur d’inférence », qui était programmé pour être un miroir logique d’un raisonnement humain. En entrant des données, le moteur fournissait ainsi des réponses d’un haut niveau d’expertise.

Les promesses laissaient envisager un développement massif mais l’engouement retombera à nouveau fin 1980, début 1990. La programmation de telles connaissances demandait en réalité beaucoup d’efforts et à partir de 200 à 300 règles, il y avait un effet « boîte noire » où l’on ne savait plus bien comment la machine raisonnait. La mise au point et la maintenance devenaient ainsi extrêmement problématiques et – surtout – on arrivait à faire plus vite et aussi bien d’autres manières moins complexes, moins chères. Il faut rappeler que dans les années 1990, le terme d’intelligence artificielle était presque devenu tabou et des déclinaisons plus pudiques étaient même entrées dans le langage universitaire, comme « informatique avancée ».

Le succès en mai 1997 de Deep Blue (système expert d’IBM) au jeu d’échec contre Garry Kasparov concrétisera 30 ans plus tard la prophétie de 1957 d’Herbert Simon mais ne permettra pas de soutenir les financements et les développements de cette forme d’IA. Le fonctionnement de Deep Blue s’appuyait en effet sur un algorithme systématique de force brute, où tous les coups envisageables étaient évalués et pondérés. La défaite de l’humain est restée très symbolique dans l’histoire mais Deep Blue n’était en réalité parvenu à ne traiter qu’un périmètre très limité (celui des règles du jeu d’échec), très loin de la capacité à modéliser la complexité du monde.

L’histoire n’était pas encore terminée…

Depuis 2010 : un nouvel essor à partir des données massives et d’une nouvelle puissance de calcul

Deux facteurs expliquent le nouvel essor de la discipline aux alentours de 2010.

  • L’accès tout d’abord à des volumes massifs des données. Pour pouvoir utiliser des algorithmes de classification d’image et de reconnaissance d’un chat par exemple, il fallait auparavant réaliser soi-même un échantillonnage. Aujourd’hui, une simple recherche sur Google permet d’en trouver des millions.
  • Ensuite la découverte de la très grande efficacité des processeurs de cartes graphiques des ordinateurs pour accélérer le calcul des algorithmes d’apprentissage. Le processus étant très itératif, cela pouvait prendre des semaines avant 2010 pour traiter l’intégralité d’un échantillonnage. La puissance de calcul de ces cartes, (capables de plus de mille milliards d’opérations par seconde) a permis un progrès considérable pour un coût financier restreint (moins de 1000 euros la carte).

Ce nouvel attirail technologique a permis quelques succès publics significatifs et a relancé les financements : en 2011, Watson, l’IA d’IBM, remportera les parties contre 2 champions du « Jeopardy ! ». En 2012, Google X (laboratoire de recherche de Google) arrivera à faire reconnaître à une IA des chats sur une vidéo. Plus de 16 000 processeurs ont été utilisés pour cette dernière tâche, mais le potentiel est alors extraordinaire : une machine arrive à apprendre à distinguer quelque chose. En 2016, AlphaGO (IA de Google spécialisée dans le jeu de Go) battra le champion d’Europe (Fan Hui) et le champion du monde (Lee Sedol) puis elle-même (AlphaGo Zero). Précisons que le jeu de Go a une combinatoire bien plus importante que les échecs (plus que le nombre de particules dans l’univers) et qu’il n’est pas possible d’avoir des résultats aussi significatifs en force brute (comme pour Deep Blue en 1997).

D’où vient ce miracle ? D’un changement complet de paradigme par rapport aux systèmes experts. L’approche est devenue inductive : il ne s’agit plus de coder les règles comme pour les systèmes experts, mais de laisser les ordinateurs les découvrir seuls par corrélation et classification, sur la base d’une quantité massive de données.

Parmi les techniques d’apprentissage machine (machine learning),  c’est celle de l’apprentissage profond (deep learning) qui paraît la plus prometteuse pour un certain nombre d’application (dont la reconnaissance de voix ou d’images). Dès 2003, Geoffrey Hinton (de l’Université de Toronto), Yoshua Bengio (de l’Université de Montréal) et Yann LeCun (de l’Université de New York) avaient décidé de démarrer un programme de recherche pour remettre au goût du jour les réseaux neuronaux. Des expériences menées simultanément à Microsoft, Google et IBM avec l’aide du laboratoire de Toronto de Hinton ont alors démontré que ce type d’apprentissage parvenait à diminuer de moitié les taux d’erreurs pour la reconnaissance vocale. Des résultats similaires ont été atteints par l’équipe de Hinton pour la reconnaissance d’image.

Du jour au lendemain, une grande majorité des équipes de recherche se sont tournées vers cette technologie aux apports incontestables. Ce type d’apprentissage a aussi permis des progrès considérables pour la reconnaissance de texte, mais, d’après les experts comme Yann LeCun, il y a encore beaucoup de chemin à parcourir pour produire des systèmes de compréhension de texte. Les agents conversationnels illustrent bien ce défi : nos smartphones savent déjà retranscrire une instruction mais ne parviennent pas la contextualiser pleinement et à analyser nos intentions.

Et après… quels enjeux ?

Le premier enjeu est technique et formel. Les équipes de recherches continuent à investir de nouvelles approches d’apprentissage, en miroir de la manière dont l’humain apprend. Nul doute que l’apprentissage machine en sera simplifié et rendu plus accessible.

Le second enjeu est politique et de fond. Le traitement de forts volumes de données révèlent les biais qui y sont cachés (masculin / féminin, riche / pauvre, etc). Croisés avec d’autres paramètres sensibles (appartenance politique, religion, maladie, délinquance), des résultats catastrophiques sont prévisibles. L’algorithme COMPAS aux Etats-Unis et HART en Grande-Bretagne, censés évaluer le risque de récidive des individus, pondèrent négativement les populations les plus précaires et de certaines origines ethniques. Non parce qu’ils ont été conçus pour cela, mais parce que ces biais n’ont pas été neutralisés lors de leur conception et que le résultat a une vocation prescriptive. Ce qui en fait un système déterministe socialement.

Il ne faut donc pas craindre dans un immédiat (même lointain) l’IA « forte », prédite par Stephen Hawking, Elon Musk ou celle des écrivains de science-fiction, qui se coderait plus vite que la génétique biologique et qui éradiquerait l’humanité. La capacité de mise en relation des IA avec le monde  réel est très faible car elle n’a finalement que très peu de capteurs : elle vit d’une certaine manière en autiste dans ses modèles spécialisés de données, qui sont ne sont que très peu mis en relation entre eux ou avec le monde réel.

Il faut en revanche craindre le « solutionnisme », tel que défini par Evgeny Moroz[5]. Si les résultats de l’IA sont spectaculaires dans certains domaines bien précis, il en est d’autres où l’utilisation de ces technologies requiert une grande prudence à traduire par une approche pluridisciplinaire, mêlant ingénierie informatique et sciences sociales. Les enjeux sociétaux et les problèmes individuels ne peuvent évidemment pas trouver de solution aussi simpliste et universelle par les seules nouvelles technologies. On peut imaginer que pour certains concepteurs, cherchant des applications financièrement rentables, « tout ressemble à un clou » parce qu’ils ont à leur disposition ce qu’ils pensent être un marteau universel. La difficulté en tant que tel ne vient d’ailleurs moins des solutions proposées (parfois pertinentes), mais du fait d’apporter des réponses avant même d’avoir compris l’entier problème et d’avoir posé toutes les questions.

L’histoire qui reste à écrire n’est donc pas le futur brillant prédit par Raymond Kurzweil, imaginant un transhumanisme éloignant le genre humain de ses vicissitudes grâce aux seules technologies. Elle n’est certainement pas celle qui serait bâtie par des luddites modernes, refusant tout apport des technologies par simple réaction à un monde nouveau et inconfortable. Imaginons plutôt, comme toujours, une histoire de conquête qui sera inévitablement parsemée d’événements sombres pour arriver à circonscrire ce que ces technologies ont de meilleur.


Aller plus loin ?


Notes

[1] Le concept est développé dans son ouvrage en 1948 « Cybernetics or Control and Communication in the Animal and the Machine »

[2] Le neurone formel est un neurone binaire, dont la sortie vaut 0 ou 1. Le calcul est effectué sur la base d’une somme pondérée de ses entrées (d’une valeur provenant d’autres neurones, donc 0 ou 1), sur laquelle est appliquée une fonction d’activation à seuil. Si la somme pondérée est au-dessus d’une certaine valeur, la sortie du neurone est 1, sinon elle vaut 0.

[3] Les ordinateurs actuels, dont certainement le vôtre, manipulent de manière tout à fait commune une chaîne de 64 valeurs binaires (bits).

[4] Mind, octobre 1950.

[5] E. Morozov, Pour tout résoudre, cliquez ici, FYP éditions, 2014.

L’intelligence artificielle : du réenchantement au désenchantement ?

De la nécessité d’une science avec conscience

Souvenons-nous des années 80 et 90 : quelques mots étaient en capacité d’enchanter n’importe quel film, histoire ou livre d’une couleur d’avant-garde. Le nombre « 2000 », les ordinateurs personnels, « l’» internet, les autoroutes de l’information, les systèmes experts et… déjà l’intelligence artificielle (IA). A leur seule évocation, ces termes arrivaient à peupler les esprits de voitures volantes, de machines dépassant leurs concepteurs pour les anéantir, d’êtres humains hybridés avec des robots.

En ce qui concerne l’IA, il semble d’ailleurs que la résurgence de nouveaux espoirs réponde à des cycles trentenaires (1950, 1980 et maintenant 2010) où a succédé à l’enthousiasme des pionniers la déception des praticiens.

Qu’en dire en 2018 ?

Peut-être que l’IA a longtemps été une science d’avenir, qu’elle l’est encore et qu’elle risque de le rester si l’on écoute Yarden Katz. Ce jeune chercheur à la Harvard Medical School estime en effet que l’actuelle « révolution de l’IA » est fabriquée de toute pièce pour promouvoir en réalité un projet de gouvernance global par les nombres. Il résume en une caractéristique ce qu’il considère comme une prétendue « ère » : le « manque de conscience » (thoughtlessness) à ne réduire l’humain qu’à son seul comportement dans une société quantifiée[1].

D’autres auteurs en France ou à l’étranger nous avertissent des mêmes dangers[2]. Faut-il voir dans ces propos la résistance d’un ancien monde contre la transformation en cours, une critique politique du projet néo-libéral cachée sous des atours technologiques ou une objectivation bienvenue dans cette nouvelle période d’enthousiasme (d’exaltation ?).

Tentons de revenir sur quelques constats factuels pour tenter de définir ce qui se cache derrière la « hype de l’IA » [3] et évoquer le risque de total discrédit si les promesses à nouveau formulées ne parviennent pas à être remplies. Au final, les approches transdisciplinaires souvent réclamées ne devraient-elles pas se concrétiser au travers d’une nouvelle formalisation des savoirs dotée d’une solide conscience ?

1/ L’IA : de quoi parle-t-on exactement ?

La croissance exponentielle de l’efficacité du traitement informatique des données est à distinguer totalement des progrès considérables restant à réaliser par la recherche fondamentale pour modéliser une intelligence aussi agile que l’intelligence humaine. Certains avaient cru pouvoir la réduire à « 10 millions de règles[4] » : des chercheurs comme Yann LeCun affirment aujourd’hui que l’IA se heurte en réalité à une bonne représentation du monde, qui est une question « fondamentale scientifique et mathématique, pas une question de technologie[5] ». Une dichotomie est donc parfois réalisée entre l’« IA forte » de science-fiction (généraliste, auto-apprenante et adaptable de manière autonome à des contextes tout à fait différents), et les IA « faibles » ou « modérées » actuelles, ultra-spécialisées et non-adaptables de manière totalement autonome à des changements complets de paradigme[6]. Cette distinction ne clarifie toutefois pas ce que l’on entend par « intelligence » et alimente nombre de malentendus et de fantasmes, entretenus et véhiculés par les médias (qui peinent à décrypter les discours commerciaux et à vulgariser des concepts complexes).

Commençons par rappeler que les mécanismes actuellement mis en œuvre sous le terme « IA » sont pluriels et ne sont pas réellement nouveaux[7]. Ce qui l’est, c’est leur synergie et leur efficacité de traitement, rendues possibles par la performance des processeurs actuels et la baisse du coût de stockage de quantité considérable de données.

Pour être plus précis, cet assemblage de sciences et techniques (matérialisé par différentes classes d’algorithmes, en annexe) a contourné de manière extrêmement astucieuse les limites des anciens systèmes experts, qui exigeaient de programmer a priori des règles logiques de traitement de données pour imiter un raisonnement.Les approches actuelles sont inductives : l’idée est de réunir un nombre suffisant de données d’entrée et de résultats attendus en sortie afin de rechercher de manière (plus ou moins) automatisée les règles pouvant les lier. Cette recherche automatisée est ce que l’on qualifie d’apprentissage dans les algorithmes d’ « apprentissage machine » (machine learning) et se trouve formalisée dans un modèle décrivant mathématiquement les relations découvertes.  

L’objectif pour les ingénieurs n’est pas de comprendre les règles ou modèles automatiquement construits par l’ordinateur mais de s’assurer que la machine arrive à reproduire de mieux en mieux les résultats attendus, si nécessaire avec toujours plus de données par des phases successives d’ « apprentissage ».

2/ Les trois clés possibles de compréhension de l’IA

Tentons de reformuler les concepts esquissés précédemment :

  • l’IA n’est pas un objet unique et homogène : il s’agit en réalité d’un assemblage de sciences et techniques (mathématiques, statistiques, probabilités, neurobiologie, informatique) en capacité de traiter des données pour concevoir des tâches très complexes de traitement informatique ;
  • le moteur de l’IA ne produit pas de l’intelligence en soi mais fonctionne par une approche inductive : l’idée est d’associer de manière plus ou moins automatisée un ensemble d’observations (entrées) à un ensemble de résultats possibles (sorties) à l’aide de diverses propriétés pré-configurées ;
  • la fiabilité du modèle (ou fonction) construit sur cette base dépend fortement de la qualité des données utilisées et du choix de la technique d’apprentissage automatisée (machine learning).

Le concept d’IA est donc globalement à démystifier si l’on s’en tient à une interprétation stricte du mot « intelligence ». Nous avons affaire à des machines mathématiques, statistiques et probabilistes complexes et non des répliques (même sommaires) du cerveau humain (qui inclut des processus perceptifs, l’apprentissage, l’auto-organisation, l’adaptation). Prenons l’une de sous-classes du machine learning, les réseaux de neurones : si leur conception est bien inspirée des neurones biologiques, leur fonctionnement est en réalité fortement optimisé par des méthodes probabilistes dites bayésiennes. En d’autres termes, ces réseaux sont aussi comparables à de réels neurones que les « animatronics » de Disneyland sont similaires à des humains.

3/ Comment prévenir le risque de discrédit lorsque les promesses ne seront tenues

Le problème majeur, s’il y en avait un à qualifier, c’est la confusion entretenue entre les succès incontestables de l’IA dans des champs bien précis d’application et leur transposition dans des champs pour lesquels son utilisation apparaît comme bien plus contestable.

Lors d’une récente conférence tenue à Bologne sur la Cyberjustice, un jeune avocat italien affirmait que toutes les disciplines des sciences sociales pouvaient désormais être modélisées par l’IA[8]. La toute-puissance des méthodes inductives flottait dans l’air et à l’entendre la modélisation du monde dans son entier était à portée… Le « manque de conscience »  dénoncé par Yarden Katz était pourtant bien plus présent dans la salle que la révolution annoncée puisqu’il n’y avait personne du milieu académique pour partager avec lui les conclusions déjà citées de Yann LeCun ou l’interroger sur les raisons pour lesquelles Auguste Comte avait rompu avec la « physique sociale » pour parler de « sociologie »[9]. Certaines des entreprises commercialisant des services bâtis sur l’IA paraissent souvent négliger ces acquis, peut-être par méconnaissance, peut-être aussi pour ne pas décourager leurs sponsors financiers…

Évoquons toutefois quelques aspects pour lesquels tout concepteur d’IA devrait avoir des réponses pour démontrer les mesures qu’il a pu prendre… en conscience et pour ne pas discréditer la matière.

La cohérence des données analysées devrait tout d’abord pouvoir être démontrée : l’un des défauts de l’IA, c’est le risque de concevoir des modèles avec des données d’entrée et des résultats a priori de même nature mais en réalité légèrement discordants. Parvenir à constituer des jeux de données cohérents pour faire décoller une fusée, analyser une image ou jouer au go est un objectif complexe mais réalisable (pour le go, il s’agit de pierres noires, blanches, 19 lignes sur 19, des règles de jeu claires). Les sciences sociales posent de toutes autres difficultés de collecte : il est même parfois impossible de s’assurer que les résultats mesurés empiriquement procèdent exactement des mêmes causes. En ce sens, la réduction des biais dans les données utilisées pour l’apprentissage est un prérequis indispensable : des données biaisées produiront des modèles biaisés, qui reproduiront des résultats biaisés. Ceci étant dit, réunir des données sans biais est un exercice qui est peut-être impossible. Aleš Završnik, professeur associé à la faculté de droit de Ljubljana, affirmait lors d’une conférence à l’école polytechnique fédérale de Zurich (ETH) que nous en sommes réduits en réalité à choisir entre les biais purement humains ou les biais humains transférés dans les machines[10].

Citons aussi le phénomène du data snooping ou du data dredging, qui est à l’origine de nombreuses approximations[11]. Ces termes qualifient la sélection (dans un grand nombre de données et de résultats) d’un échantillon présentant à lui seul des associations statistiquement significatives, échantillon réemployé ensuite pour confirmer cette hypothèse. Pour résumer, cela revient à tirer une série de balles dans un mur puis dessiner ensuite une cible autour pour confirmer que vous l’avez bien touché. C’est aussi ce que les mathématiciens Cristian Sorin Callude et Giuseppe Longo dénoncent comme étant « le déluge des corrélations fallacieuses dans le big data »[12]. Tout résultat statistique serait en réalité à élargir à d’autres échantillons pour être vérifié et surtout ne pas fonder à lui seul des conclusions : ils pourrait être recoupés avec d’autres sciences ou techniques pour confirmer sa plausibilité[13].

Enfin, l’effet performatif est parfaitement connu mais en général non traité : un système apprenant sur la base de résultats qu’il contribue à produire risque fort de s’autoalimenter et de n’être représentatif que de lui-même. Le problème est aujourd’hui souvent identifié mais aucune solution concrète n’est proposée.

Les travers propres à l’interprétation des résultats produits par l’IA (renforcement des discriminations sur des facteurs ethniques, économiques, sociaux) ne seront pas développés ici mais justifient une réelle évaluation transdisciplinaire (économique, sociale, sociologique, philosophique, juridique) par des comités éthiques avant de mettre en œuvre tout traitement relatif à des individus[14]. Chaque cas d’utilisation de l’IA serait donc à considérer de manière globale pour le qualifier, peut-être aussi au travers d’une science spécifique à construire ? Iyad Rahwan et Manuel Cebrian, chercheurs au MIT, invitent à bâtir une nouvelle discipline scientifique relative au comportement des machines[15]. En écho, Nicolas Nova rappelait dans sa lettre d’information Lagniappe du 13 mai 2018, que les Sciences & Technologies Studies (STS) répondent déjà à ce besoin et que l’on pourrait plutôt s’interroger  sur les raisons pour lesquelles les ingénieurs, les scientifiques, les chercheurs des différents champs semblent parfois s’ignorer les uns les autres[16]. Le manque réciproque de connaissances épistémologiques est une évidente possibilité.

Les promesses renouvelées durant ces dernières années visant à bâtir une réelle  IA ne seront donc vraisemblablement pas tenues. Une fois la « hype » dissipée, la déception qui y succédera risque fort de compromettre le financement de nouveaux projets de recherche ou de nouvelles réalisations alors même que des potentialités existent dans des champs bien précis[17]. Le concept d’IA est donc à objectiver et à démystifier de manière urgente non pour résister aux changements de notre monde mais de manière à ne pas compromettre l’extraordinaire potentiel de cette puissance nouvelle de calcul à cause de discours hâtifs et exaltés, aux motifs pour le moins variables.


Aller plus loin ?

Les différentes classes d’algorithme constituant l’IA et l’apprentissage machine



Notes

[1] Yarden Katz, Manufacturing an Artificial Intelligence Revolution, SSRN, 17 novembre 2017 – Consulté sur le site SSRN le 14 mai 2018 : https://ssrn.com/abstract=3078224 ou http://dx.doi.org/10.2139/ssrn.3078224

[2] Citons par exemple en France Dominique Cardon, Eric Sadin, Adrien Basdevant et Eric Mignard, Antoine Garapon et Jean Lassègue ; en Europe les travaux d’Aleš Završnik – Voir la rubrique Bibliographie de ce blog

[3] Emmanuel Barthe, Intelligence artificielle en droit : derrière la « hype », la réalité – Consulté sur le blog precisement.org le 10 mai 2018 : http://www.precisement.org/blog/Intelligence-artificielle-en-droit-derriere-la-hype-la-realite.html

[4] Douglas Lenat, chercheur en intelligence artificielle et directeur de la société Cycorp

[5] Yann LeCun, Qu’est-ce que l’intelligence artificielle, Collège de France – Consulté sur le site du collège de France le 16 juin 2017 : https://www.college-de-france.fr/media/yann-lecun/UPL4485925235409209505_Intelligence_Artificielle______Y._LeCun.pdf

[6] Distinction notamment réalisée par John Searle dans les années 1980, où il différencie un système qui aurait un esprit (au sens philosophique) et pourrait produire de la pensée d’un système qui ne peut qu’agir (même s’il donne l’impression de pouvoir penser)

[7] Le théorème de Thomas Bayes, étendus par Pierre-Simon Laplace, date du XVIIIème  siècle ; les bases des réseaux neuronaux ont été développées dans les années 1940 par Warren McCulloch and Walter Pitts (Created a computational model for neural networks based on mathematics and algorithms called threshold logic, 1943)

[8] Atelier de travail « Vers une cyberjustice », tenu les 10 et 11 mai 2018 à Bologne (Italie) à l’initiative de l’IRSIG-CNR (Istituto di Ricerca sui Sistimi Giudiziari – Consiglio Nazionale delle Ricerche)

[9] « La réduction des faits sociaux à des formules mathématiques et à des indicateurs inquiétait déjà plusieurs philosophes, écrivains et hommes de science, qui y voyaient un risque de moralisation de la vie sociale par l’algèbre et les  calculs » Adrien Basdevant, Jean-Pierre Mignard, L’empire des données, Don Quichotte, 2018, p. 40.

[10] Conférence « Justice automatisée : algorithms, big data et justice pénale » (Automated Justice: Algorithms, Big Data and Criminal Justice Systems) tenue le 20 avril 2018 à l’école polytechnique fédérale de Zurich (ETH) – Présentation accessible sur le site internet de l’université (anglais seulement) : https://www.video.ethz.ch/speakers/collegium-helveticum/digital-societies/automated_justice/84c3f617-8784-4203-b7a8-50a176811933.html

[11] Voir par exemple l’article de Regina Nuzzo, Statistical errors, Nature, vol. 506, 13 février 2014  – article consulté le 14 mai 2018 accessible par le lien suivant (anglais seulement) :  http://sisne.org/Disciplinas/PosGrad/MetRedCient/Statistical%20errors%20(p-values).pdf

[12] Théorie dite de « Ramsey », citée par Cristian Sorin Calude et Giuseppe Longo dans La toile que nous voulons, p.156, collectif, Institut de Recherche et d’Innovation, FYP éditions ; théorie développée dans l’étude de Ronald L. Graham, Joel H. Spencer – Ramsey Theory, Scientific American, vol.263, n°1, juillet 1990, p112-117

[13] Regina Nuzzo, Statiscal errors, déjà cité.

[14] Par exemple le renforcement des discriminations tel qu’en témoigne le logiciel COMPAS aux Etats-Unis ou HART en Grande-Bretagne qui prétendent évaluer la risque de récidive des personnes mises en cause dans des affaires pénales

[15] Iyad Rahwan, Manuel Cebrian, Machine Behavior needs to be academic discipline, Nautilus, 29 mars 2018 – Consulté le site Nautilus le 14 mai 2018 (anglais seulement) : http://nautil.us/issue/58/self/machine-behavior-needs-to-be-an-academic-discipline

[16] Nicolas Nova est chercheur et Professeur associé à la Haute École d’art et de design à Genève, sa lettre d’information est accessible à l’adresse suivante : https://tinyletter.com/nicolasnova

[17] Voir notamment les propos de Michael I. Jordan dans Le Monde, 1er décembre 2015, où il estime notamment que « le battage médiatique autour des possibilités excitantes de l’analyse du big data est trop important. Les attentes actuelles dépassent de loin la réalité de ce que l’on peut obtenir. Le problème est que lorsque de telles attentes ne sont pas remplies tout de suite, la déception engendrée peut jeter un discrédit sur l’ensemble même du secteur. » – Consulté sur le site du Monde le 11 mai 2018 : http://www.lemonde.fr/sciences/article/2015/12/01/michael-jordan-une-approche-transversale-est-primordiale-pour-saisir-le-monde-actuel_4821327_1650684.html

Chronique de l’émission “La justice prédictive”

Quel avenir pour la justice dite prédictive ?

Invité : Bruno Cathala, juge à la Cour de cassation

La justice prédictive a été un des grands sujets de buzz de l’année dernière… j’emploie le passé car une expérimentation a pris fin en octobre 2017 dans les cours d’appel de Lille et de Rennes et le constat semble sans… appel : Cela ne servirait à rien. Ou presque.

Il faut dire que les promesses de départ étaient ambitieuses : challenger, comme l’on dit aujourd’hui, l’impartialité du juge, lever le voile sur un avenir rempli d’aléa judiciaire, conseiller – dissuader même – le justiciable d’aller rencontrer un juge car, tout bien pesé, son affaire ne vaudrait pas tripette.

Cet enthousiasme excessif, hérité de la réussite des systèmes prédictifs des pays de common law, s’est heurté à une réalité tout autre sur le continent, qui ne tient pas à la légendaire résistance au changement des français, qui auraient la baguette coincée sous leur bras et leur béret vissé sur la tête.

La machine apprenante, l’intelligence artificielle, ce bazar de silicone qui sait maintenant construire de manière autonome ses propres règles de gestion n’est effet pas très souple aux changements complets de paradigmes et de concepts. Prévoir la météo à plusieurs jours de distance reste complexe par le nombre d’éléments à prendre en compte mais les règles physiques ne sont pas totalement bouleversées au hasard de la volonté des humains. Apprendre à jouer au Go est autrement plus profond que jouer aux échecs mais – là encore – des règles solides servent de fondement.

Que penser de la solidité de la loi et des règles fondatrices du droit continental ? Très simplement que si la loi change, toute la construction jurisprudentielle s’écroule. Donc d’emblée, l’affaire partait mal.

Ajoutons à cela un détail qui n’en est pas un : qu’est-ce que ces machines apprennent exactement en ingurgitant des tonnes d’affaires à l’intérêt jurisprudentiel extrêmement variable (pour ne pas être désagréable avec leurs producteurs).

Rien.

Enfin si, cela peut nourrir des calculs statistiques (nous sommes d’ailleurs plus proches de la prévision que de la prédiction)… mais croire que les intelligences artificielles apprennent ainsi la règle de droit revient à envisager que mon chat – qui est fort sympathique – sait lire l’heure car il anticipe en miaulant le moment de l’arrivée de ses croquettes.

Les concepteurs des intelligences artificielles admettent d’ailleurs volontiers cette limite : ils savent avoir perdu la compréhension de ce qui se passe dans la boîte noire des intelligences artificielles… et d’ailleurs ils ne s’en émeuvent que très modérément !

Pourquoi ?  Car seul le résultat compte ! Par petits pas, test de toutes les possibilités et des milliards de vies consommées, une machine arrive à terminer Super Mario. C’est cela qui compte pour ses concepteurs et non la manière dont elle joue.

Alors on fait quoi de tout cela ? Rien ?

Poursuivez avec l’entretien de Bruno Cathala, juge à la Cour de cassation sur Amicus Radio.