L’intelligence artificielle, en peine pour traiter les mots de la justice
Il semble qu’à l’ère de la startup-nation, les ministères, même régaliens, ont vocation à traverser les turbulences que l’on aurait cru réservées aux ingénieurs-entrepreneurs de la Silicon Valley. En deux années d’expérimentation l’algorithme « DataJust », issu de l’initiative du ministère de la Justice avec l’appui d’enthousiastes entrepreneurs d’intérêt général, a suscité à la fois de grands espoirs et des craintes substantielles, a été attaqué de toutes parts dans ses fondements juridiques (et son opportunité) puis sauvé dans une décision du Conseil d’État, avant d’être en passe d’être abandonné face aux moyens nécessaires pour tenter d’en expurger les potentiels biais[1]. Un nouvel épisode qui confortera les habituels contempteurs d’une informatique judiciaire[2] qui a pourtant eu ses heures de gloire au début de l’informatisation des services de l’État dans les années 1980 et 1990[3].
Rappelons qu’un décret du 27 mars 2020, paru en plein milieu du premier confinement de la pandémie de Covid-19, est venu créer « DataJust » avec l’objectif d’expérimenter les capacités de l’intelligence artificielle (« IA[4] ») pour améliorer la prévisibilité des décisions rendues par les tribunaux en matière de réparation du préjudice corporel. Il faut dire que ce contentieux, qui réserve au juge une très grande marge d’appréciation au titre de l’individualisation de la réparation, fait peser un très fort aléa sur les débiteurs de créance d’indemnisation – qu’il s’agisse de personnes physiques ou d’organismes payeurs privés ou publics.
En 2008, une tentative pour inscrire dans une loi un barème national avait échoué, malgré un livre blanc de l’Association française de l’assurance particulièrement argumenté. Des échelles indemnitaires établies par la Cour de cassation, comme la nomenclature « Dintilhac » ou le référentiel « Mornet », continuent donc encore aujourd’hui de servir de guide informel aux acteurs de l’indemnisation du dommage corporel afin d’assurer une meilleure harmonisation territoriale de la réponse judiciaire… sans tout le temps y parvenir de manière satisfaisante[5]. Ces barèmes ne sont en effet qu’indicatifs et ne peuvent ni se substituer à la loi, ni réduire la marge d’interprétation du juge qui résulte de cette même loi[6].
La vague déferlante de « l’IA » a renouvelé cette ambition dès le milieu des années 2010 avec une promesse : celle d’une précision totalement inédite en traitant une quantité considérable de jurisprudence. Les succès, rapidement médiatisés, d’algorithmes apprenant de manière plus ou moins autonome à reconnaître des images ou à jouer à des jeux de société complexes ont favorisé leur généralisation dans des domaines aussi divers que le commerce, l’industrie, la santé ou… la justice.
Avec la jurisprudence comme matière première et la certitude que le droit dispose d’une logique modélisable, d’ambitieuses legaltechs se sont lancées dans l’élaboration de solutions prétendant anticiper les décisions des juges. Des vagues de critiques s’abattront sur ces initiatives audacieuses et disruptives, déconstruisant progressivement les termes marketing et décrié de « justice prédictive » en une variété d’autres termes comme justice quantifiée, quantitative ou actuarielle, ou encore statistique juridique. Finalement, la désignation de ces outils semble s’être aujourd’hui consolidée sous le vocable (plus ancien) de jurimétrie[7], qui pourrait être défini comme un ensemble de méthodes, fondées sur les mathématiques et les statistiques, visant à dégager des constantes des décisions de justice.
Les ambitions et les limites de « DataJust »
« DataJust » n’est donc pas qu’une simple version modernisée d’un référentiel d’indemnisation. Sa méthode pour établir un cadre de référence public et officiel relève pleinement de la jurimétrie et lui emprunte ainsi sa puissance et ses faiblesses.
Si l’on s’intéresse à décrire le processus d’élaboration de l’algorithme, il faut s’intéresser tout d’abord à la sélection des données d’entraînement. Contrairement à d’autres outils, il n’a pas été question pour les concepteurs d’employer indistinctement toutes les décisions dans ce domaine contentieux, mais de se restreindre aux décisions présentant, selon eux, un intérêt particulier. Ont donc été retenues les décisions rendues entre 2017 et 2019 par les cours d’appel judiciaires et administratives.
Cet arbitrage n’est toutefois pas la garantie d’une bonne représentativité de l’état du droit puisque, contrairement à ce que l’on pourrait penser, les décisions d’appel n’ont aucune autorité particulière par rapport aux décisions de première instance et ne constituent qu’un second examen en fait et en droit d’une affaire. Cette sélection, de plus, exclut toute la partie de contentieux portant sur l’indemnisation des préjudices corporels à l’occasion d’un procès pénal, qui présente tout de même un certain intérêt dans l’élaboration d’un échantillon représentatif.
De manière plus substantielle, il n’a pas été démontré si les décisions prononcées après une transaction entre les parties ont été distinguées, injectant ainsi potentiellement dans le système des indemnisations potentiellement minorées au regard des circonstances de l’espèce.
Si l’on examine ensuite le traitement de ces données, le processus de constitution du référentiel commence par isoler les éléments pertinents d’une décision, au moyen d’une pré-annotation automatique en fonction de 41 critères (âge, genre, profession, etc.), vérifiés par des annotateurs humains[8]. Cette sorte de « traduction informatique » des décisions de justice alimente ensuite un algorithme dit « d’apprentissage automatique » (machine learning) qui cherche des liens (corrélations) entre les éléments constants et des niveaux d’indemnisation afin de bâtir un modèle. C’est la phase « d’entraînement ».
La solidité du modèle est ensuite vérifiée avec un autre ensemble de décisions de « test », traduites de la même manière que le jeu d’entraînement. L’originalité de l’apprentissage automatique par rapport à des méthodes de programmation tient à l’intervention extrêmement limitée d’un humain pour « découvrir » les règles qui constituent le modèle, certaines formes d’apprentissage l’excluant même (apprentissage non supervisé par exemple, adapté pour le ciblage marketing ou la recommandation de contenu culturel[9]).
Mais cette technologie est en réalité peu adaptée pour procéder au traitement d’une telle quantité d’informations qualitatives, issues des décisions de justice. Loin de révéler des constantes aptes à établir des causalités, les corrélations peuvent en effet également résulter du simple hasard, comme l’ont démontré les mathématiciens Cristian S. Calude et Giuseppe Longo[10]. Ces projets de « jurimétrie » se heurtent également à la croyance qu’une large généralisation de l’apprentissage automatique est envisageable à la suite de succès pour des applications très spécialisées.
Or, s’il est aisé pour une machine de s’en sortir dans un environnement fermé, avec des règles simples et constantes comme le jeu de go, il est en bien autrement dans des environnements ouverts, emplis d’ambiguïtés, d’événements non prévisibles et exigeants de la contextualisation. Tout ce qu’une intelligence artificielle ne sait pas faire aujourd’hui, notamment face à la « texture ouverte » du droit et la réalité de l’interprétation juridique où deux raisonnements valides peuvent conduire à des décisions opposées.
Sans parler du fait que si certains des 41 critères retenus par l’équipe résultent de la loi, d’autres procèdent de leur seul arbitrage, sans garantie qu’ils constituent un filtre suffisamment précis pour isoler tous les éléments causatifs d’un montant d’indemnisation. Voici tous les ingrédients réunis pour du data dredging (dragage de données), c’est-à-dire restreindre la sélection des décisions d’appel à celles correspondant au cadre posé par les concepteurs… au risque de favoriser certaines juridictions plus prolixes au détriment d’autres n’ayant pas motivé selon tous les critères attendus.
L’intelligence artificielle et le fantasme renouvelé de la prévisibilité de la justice
Dans ce contexte, il est surprenant que les critiques de « DataJust » se soient principalement concentrées dans le débat public sur les atteintes à l’individualisation de la réparation ou la sensibilité des données employées, la déshumanisation ou la robotisation de la justice, ou son emploi pour une déjudiciarisation massive.
Sans remettre en cause l’intérêt de toutes les questions posées, chacune de ces critiques paraît considérer comme acquise la capacité des algorithmes d’apprentissage automatique à traiter correctement des décisions de justice pour produire un résultat viable, alors que de très sérieuses contestations peuvent être émises sur ce simple état de fait… et congédier toute autre forme de débat. Un peu comme si l’on argumentait passionnément des risques à ouvrir un œuf avec un marteau, alors que l’on pourrait simplement trancher la question en constatant que ce n’est pas l’outil adapté.
Par le passé, des auteurs célèbres, héritiers de Leibniz, se sont intéressés aux probabilités en matière judiciaire pour en réduire l’aléa, à l’instar du marquis de Condorcet[11] ou de Denis-Simon Poisson[12]. Cette mathématisation du droit présume de l’existence d’un déterminisme social ou économique[13], voire biologique comme l’ont soutenu les positivistes italiens du XIXe siècle[14]. Les solutions de jurimétrie se fondent exactement sur ce type de représentation de la société, en la camouflant derrière le vernis des succès de « l’IA » dans d’autres contextes plus favorables.
Or le formalisme mathématique est tout à fait impropre à restituer une image fidèle de la complexité sous-jacente du raisonnement juridique formalisé dans les motivations des jugements. Le raisonnement judiciaire est surtout affaire d’appréciation et d’interprétation, celles des faits prouvés et pertinents du litige et des règles de droit applicables, dont la signification demeure très indéterminée[15]. Et c’est bien ce travail d’interprétation que ne peuvent – et ne veulent – pas réaliser les diverses applications de « l’IA ».
En toute indifférence de la compréhension des réelles causalités d’une décision et de ses mécanismes, les concepteurs de ces algorithmes espèrent seulement qu’en corrélant un très grand nombre de contextes lexicaux entre eux avec les données chiffrées des montants d’indemnisation, les algorithmes réussiront à produire par une approche statistique les mêmes effets que le processus décisionnel réel. En d’autres mots, une totale confusion entre les faits et le droit.
Confusion d’autant plus grave que les sciences sociales nous ont appris à employer, mais aussi à nous méfier, des « variables proxy » qui lient fortement une variable mesurable, pas nécessairement significative en soi, à un autre phénomène non observable directement. C’est ainsi que le fameux IMC (indice de masse corporelle, mettant en rapport le poids et la taille d’un individu, inventé par Adolphe Quételet[16]) est lié au taux de graisse corporelle. Mais aussi que le code postal des individus utilisé par l’algorithme américain d’évaluation du risque de récidive COMPAS a conduit à faire peser systématiquement sur les populations afro-américaines des évaluations défavorables, du fait de leur concentration dans des ghettos avec de forts taux de criminalité[17].
Rappelons que l’indice de Quételet n’avait d’ailleurs pas été conçu pour cet effet et qu’il n’est devenu une norme de santé publique par l’OMS qu’en 1997, après que des compagnies d’assurance l’aient corrélé à certaines maladies (cardio-vasculaires notamment) et à un raccourcissement de la durée de vie.
De même, les concepteurs de COMPAS n’ont pas cherché à pénaliser volontairement certaines catégories de population, mais l’usage d’une donnée a priori anodine a servi de passerelle pour créer un lien direct entre risque criminel et origine ethnique. Autant dire qu’il s’agit d’un véritable casse-tête pour les concepteurs « d’IA » quand il s’agit de traiter des données sociales, qui ne se laissent pas facilement mettre en équation[18].
Pourtant, une partie des professions juridiques dont les plus hautes juridictions voient dans l’émergence de ces algorithmes une sorte de « collégialité élargie[19] » en plus d’une tout à fait positive « norme issue du nombre » imposant aux juges un « effort renouvelé de justification[20] ». Peut-être est-ce là le résultat d’une surestimation des capacités prédictives de cette génération d’algorithmes après des années de traitement favorable des médias sous l’impulsion de l’industrie numérique[21] et de l’effet de leur autorité naturelle pour nous dévoiler, dans un monde prétendument déterminé, la Vérité des choses[22].
Peut-être est-ce là aussi une traduction de la certitude bien ancrée que notre salut se trouverait dans une complémentarité entre l’homme et la machine. Mais c’est sans compter sur des biais cognitifs, comme les biais d’automatisation ou d’ancrage, qui confèrent à ces machines une influence bien particulière[23].
Le premier de ces biais décrit la propension humaine à privilégier les suggestions automatiques des systèmes de prise de décision. C’est comme cela que l’on se retrouve dans une rue ayant changé de sens de circulation en suivant les conseils de son GPS sans faire l’effort de se concentrer sur l’environnement réel. Le second désigne la difficulté à se départir d’une première information, même parcellaire, notamment quand il s’agit d’apprécier une situation chiffrée. C’est ainsi qu’en période de solde, nous sommes conduits à avoir l’impression d’une bonne affaire entre les mains si l’écart entre le prix barré et le prix affiché est important. Avec la combinaison de ces deux biais, l’on comprend sans difficulté que ces algorithmes énonçant des chiffres pour évaluer la teneur d’un contentieux sont loin d’être de simples compagnons tout à fait neutres et sont susceptibles de détenir une autorité bien supérieure à un simple tableau de référence.
Arrivés au bout de cette longue démonstration, nous pourrions nous dire que la cause serait entendue et en conclure que l’emploi d’algorithmes dans la justice, comme dans d’autres domaines sensibles, ne serait définitivement pas qu’une simple affaire d’outillage et de résistance au changement. Il n’est pourtant pas rare d’entendre certaines voix continuer de s’élever pour préférer, en tout état de cause, une « IA » approximative aux biais et à la partialité des juges contrariés par leur digestion[24]. Libre à eux de les laisser transformer « leur liberté en destin[25] » en s’en remettant à de nouveaux oracles pour choisir leurs restaurants ou leurs hôtels, mais ne nous devrions peut-être pas nous laisser imposer dans tous les pans de notre société des mécanismes de décisions algorithmiques comme une évidence… Sauf à sacrifier l’État de droit, difficilement acquis et toujours fragile, au profit d’une toute nouvelle forme de gouvernance où le calcul servirait de norme : un État des algorithmes[26].
NDA : les opinions exprimées dans l’article n’engagent que moi.