L’idéologie du « Big Data », une catastrophe annoncée pour l’éthique de la connaissance et de l’action
L’intelligence artificielle (ci-après IA) est devenue un sujet d’actualité au même titre que la guerre en Ukraine ou la révolte des paysans français. Les plus savants la font remonter à une date récente, 2018 par exemple.
Ayant travaillé de nombreuses années à une histoire philosophique des sciences cognitives, de la cybernétique à l’IA[1], je la fais remontrer quant à moi à l’année 1943, quand un neuropsychiatre nommé Warren McCulloch et un mathématicien de génie, Walter Pitts, inventèrent le concept de réseau de neurones formels. Ils démontrèrent à son sujet des propriétés remarquables qui pouvaient faire espérer l’avènement d’une science matérialiste et logico-mathématique de l’esprit humain.
Les quelques quatre-vingts ans qui nous séparent de cet acte inaugural ont évidemment vu des évolutions spectaculaires. Grâce en particulier aux travaux du Français Yann Le Cun et du Britannique Geoffrey Hinton, le modèle initial est devenu un système capable d’apprendre par lui-même au moyen d’une hiérarchie enchevêtrée de couches de neurones formels – d’où l’expression « apprentissage profond », deep learning en anglais –, et cela en se confrontant aux données du monde réel.
C’est ici qu’intervient la mise à la disposition de ces machines auto-apprenantes de quantités gigantesques de données, et cela dans tous les domaines. « Une IA », comme on dit aujourd’hui, en désignant un type de machine intelligente et non plus une discipline particulière, apprend toute seule à naviguer dans un monde résumé à des données, tout en en engendrant de nouvelles – c’est ce qu’on appelle le Big Data.
Ce que les médias désignent par « IA » est un ensemble encore plus restreint de telles machines : les grands modèles de langage (connus comme LLM, de l’anglais Large Language Models) dont le plus connu à ce jour est le « Chat GPT » de la société Open AI. Même s’il ne fait que prévoir le signe le plus probable qui prolonge un corpus déjà donné ou construit, ses performances peuvent être spectaculaires. Avec des moyens modestes, j’ai pu obtenir de ma machine un tableau pointilliste représentant un dimanche après-midi au bord d’une rivière, et un prélude en do mineur, numéro 25, du livre I du Clavier bien tempéré de Bach[2].
Ce sont souvent les mêmes qui s’extasient et s’effraient devant ces nouveaux habitants de notre planète. Vont-ils priver de travail les scénaristes de Hollywood ? Vont-ils mettre l’espèce humaine au rebut ? Ce n’est pas de ce type de périls que je veux parler aujourd’hui, mais d’une menace plus insidieuse, car elle porte sur trois des questions que posait Kant : Que puis-je connaître ? Que dois-je faire ? Et qu’est-ce que l’homme ?
Modélisation, causalité et corrélation
L’idée que le traitement de données pourrait devenir le fondement d’une science nouvelle, pourvu que les données soient suffisamment abondantes et riches et qu’il existe des algorithmes pour repérer des régularités, sous forme par exemple de corrélations, dans le fouillis inextricable qu’elles constituent, a fait lentement son chemin à mesure que progressaient le recueil d’informations en tous genres et les progrès fulgurants de la programmation informatique[3].
Sous le nom convenu de « Big Data », cette idée a récemment littéralement explosé, ses promoteurs n’hésitant pas à proclamer « la fin de la théorie ». Chris Anderson, qui fut le rédacteur en chef de la revue « branchée » de la Silicon Valley, Wired Magazine, pouvait ainsi en juin 2008 intituler l’un de ses essais « The End of Theory : The Data Deluge Makes the Scientific Method Obsolete[4]. » On peut y lire que dorénavant, « la corrélation l’emporte sur la causalité et le progrès scientifique peut se dispenser tant de la modélisation que de la théorie. »
Au regard de l’histoire et de la philosophie des sciences de telles affirmations témoignent avant tout d’une inculture affligeante et d’une naïveté confondante. C’est comme si l’on faisait un grand saut périlleux en arrière par-dessus la révolution kantienne dont le geste « copernicien » a mis le processus de connaissance à la place de la chose en soi. La causalité, pour Kant, était une forme fondamentale de notre entendement.
C’est comme si n’avaient jamais existé les épistémologies d’un Émile Meyerson, d’un Karl Popper ou d’un Thomas Kuhn insistant sur les impasses d’un empirisme radical, l’impossibilité de se passer d’un « programme métaphysique de recherche », le rôle indispensable des hypothèses dans la démarche scientifique qui procède par conjectures et réfutations – ce qu’on peut traduire par la formule : « il n’y a pas de faits bruts[5]. »
Je prendrai ici pour illustration l’irruption sur la scène scientifique du paradigme de la complexité, et plus précisément de la modélisation des systèmes complexes. C’est le mathématicien John von Neumann, autre fondateur de la cybernétique, qui le premier définit ce concept, lors d’un symposium réalisé en 1948 au California Institute of Technology (CalTech) de Pasadena, en Californie. Un objet complexe, conjectura-t-il, est tel que le modèle le plus simple qu’on puisse en donner, est lui-même. L’information qu’il contient est incompressible. Il est révélateur que von Neumann eut recours à un exemple emprunté à l’économie théorique pour illustrer son propos.
Il s’agit d’un texte de Vilfredo Pareto expliquant en 1906 dans son Manuel d’économie politique que le modèle de l’équilibre économique général qu’il avait mis au point avec Léon Walras, modèle qui formalise le mécanisme de la formation des prix sur un marché concurrentiel, « ne vise nullement à un calcul numérique des prix. Faisons en effet l’hypothèse la plus favorable pour un tel calcul, supposons que nous ayons triomphé de toutes les difficultés consistant à trouver les données du problème et que nous connaissions les ophélimités (NdA : c’est-à-dire les « utilités » ou « désirabilités ») de tous les différents produits pour chaque individu, et toutes les conditions de production de tous les produits, etc. Cela est déjà une hypothèse absurde. Pourtant elle n’est pas suffisante pour rendre la solution du problème possible. Nous avons vu que dans le cas de 100 personnes et de 700 produits il y aura 70 699 conditions (en fait, un grand nombre de circonstances que nous avons négligées jusqu’ici augmenteront ce nombre); nous devrons donc résoudre un système de 70 699 équations. Cela excède en pratique les pouvoirs de l’analyse algébrique, et cela est plus vrai encore si l’on songe au nombre fabuleux d’équations que l’on obtient pour une population de quarante millions d’habitants et plusieurs milliers de produits. Dans ce cas, les rôles s’inverseraient : ce ne seraient plus les mathématiques qui viendraient au secours de l’économie politique, mais l’économie politique qui viendrait au secours des mathématiques. En d’autres termes, si l’on pouvait réellement connaître toutes ces équations, le seul moyen pour les résoudre qui soit accessible aux pouvoirs de l’homme serait d’observer la solution pratique qui leur est donnée par le marché. »
En d’autres termes, seul le marché peut nous dire ce dont il est capable. Le meilleur modèle, et le plus simple, du comportement du marché, c’est le comportement du marché lui-même. L’information que le marché mobilise et met au service de ceux qui se laissent porter par sa dynamique, n’est pas « compressible ». En dernier ressort, le marché – et il en va de même de tout système complexe – est à lui-même sa propre cause et son comportement n’est pas réductible au jeu de causes identifiables à un niveau plus élémentaire. Cependant, même si elle en sort profondément transformée, la causalité reste un élément essentiel de notre entendement.
En regard, l’idéologie véhiculée par le « Big Data » ne promet qu’une chose : il permet de prévoir même si on ne comprend pas ce dont il retourne. D’où la formule : « avec assez de données, les chiffres parlent d’eux-mêmes[6]. » Ou encore : « Dans de nombreux cas, il nous faut renoncer à tenter de découvrir la cause des choses car c’est le prix à payer pour pouvoir travailler avec des corrélations. Au lieu de chercher à comprendre précisément pourquoi un moteur a une panne ou les effets secondaires d’un médicament disparaissent, grâce au Big Data les chercheurs vont plutôt rassembler et analyser d’énormes quantités d’information au sujet de ces événements et de tout ce qui leur est associé, et ils vont chercher des régularités qui leur permettront de prévoir leurs occurrences futures. Le Big Data répond à la question « quoi », et pas « pourquoi », et bien souvent cela nous suffit… Notre vision du monde qui reposait sur l’importance donnée à la causalité est aujourd’hui défiée par [le privilège accordé aux] corrélations. Il fut un temps où la possession du savoir allait de pair avec la compréhension du passé ; elle est solidaire aujourd’hui de la capacité à prédire l’avenir[7]. »
Le Big Data prétend se jouer de la complication des données. Ce qui précède permet de dire que sa pierre d’achoppement est la complexité des phénomènes. Si, à défaut de comprendre, prévoir est tout ce qu’il a à offrir, – un algorithme comme Chat GPT ne prétend à rien d’autre –, il aura sacrifié la compréhension à une capacité de prédire qui ne repose sur rien que l’on puisse appréhender. De là l’impression que donnent parfois les « prodiges » dont sont capables ces « IA génératives » de faire sortir un lapin du chapeau d’un prestidigitateur digital[8].
Le Big Data et l’éthique sacrifiée
L’éthique suppose un sujet humain qui agit. Agir, c’est, étymologiquement, commencer un nouveau processus, mettre en branle des enchaînements de causes et d’effets. Nous penser libres dans un monde déterministe implique de recourir à une fiction, qui est la matière de la métaphysique de l’action.
La philosophe américaine Christine Korsgaard, connue pour sa défense de la philosophie morale de type kantien, la caractérise ainsi : « Afin de pouvoir faire quoi que ce soit, il nous faut tout simplement faire semblant d’ignorer le fait que nous sommes déterminés, et décider ce que nous devons faire – exactement comme si (als ob) nous étions libres[9]. » Selon cette fiction, nous sommes capables d’agir dans l’exacte mesure où nous sommes capables de démarrer, par l’effet de notre volonté, de nouvelles chaînes causales. Faire comme si nous étions libres nous amène à considérer des propositions contrefactuelles[10] du type : « Si j’agissais autrement que je le fais, alors telles conséquences s’ensuivraient. »
Que le Big Data se satisfasse de renoncer à la recherche des causalités dans le domaine des phénomènes naturels, il met en péril la démarche scientifique. Qu’il fasse de même dans le domaine des affaires humaines, il s’interdit de fonder la moindre éthique.
Nous allons illustrer cette assertion par un cas qui joue un rôle important aujourd’hui dans les controverses internes à la philosophie morale de type rationaliste. Il s’agit de savoir si, ayant à évaluer une certaine action au double regard de la rationalité et de l’éthique, on doit se limiter à ses conséquences causales ou si l’on doit aussi tenir compte de ses conséquences contrefactuelles non causales. Un exemple permettra de comprendre ces notions.
Imaginons que, grâce au Big Data, nous décelions une corrélation entre un certain type de comportement et l’incidence d’une maladie. De façon très schématique, et seulement pour fixer les idées, considérons la dépendance statistique entre le fait de fumer régulièrement et le cancer du poumon. À lui seul, le Big Data ne nous permet pas d’aller plus loin et de pénétrer dans le monde des causes.
Or, trois cas sont possibles si deux variables sont corrélées : la première peut être cause de la seconde, celle-ci peut être cause de celle-là, ou bien l’une et l’autre résultent d’une même cause commune. Dans l’exemple considéré, ou bien fumer cause le cancer du poumon – on écarte la causalité en sens inverse –, ou bien la propension à fumer et le fait d’avoir le cancer du poumon sont causés l’une et l’autre, indépendamment, par un même facteur de risque, disons un certain gène.
Demandons-nous quelle est la bonne conduite à tenir ou à recommander dans chacun de ces deux cas. Si fumer cause le cancer du poumon, il est clair qu’il faut s’abstenir. En revanche, il n’y a aucune raison de cesser de fumer dans l’autre cas, même si l’on ignore ce qu’il en est de la présence ou de l’absence du gène en question chez un individu particulier. C’est un principe du choix rationnel qui permet de le comprendre. Il a reçu le nom de principe de la chose certaine (sure thing principle en anglais). Ce nom lui a été donné par le grand statisticien américain Leonard Savage, lequel en a fait un axiome de la théorie du choix rationnel – un axiome, c’est-à-dire une proposition qui tire en principe son évidence d’elle-même, comme une tautologie.
La logique semble se ramener ici au bon sens. Si, quelle que soit la valeur d’une variable cachée de moi (ici, l’existence ou l’absence en moi du gène responsable du cancer du poumon) l’option que je préfère entre plusieurs possibilités qui s’offrent à moi est toujours la même (disons que je préfère fumer à m’abstenir), il importe peu que je connaisse ou non la valeur de la variable : je préfère cette option, un point c’est tout, et je la choisis sans autre forme de procès (ici, je choisis de fumer ou de continuer à le faire)[11].
Dans ce cas, fumer est dit constituer une stratégie dominante : elle est la meilleure quel que soit l’état du monde inconnu de moi. Pour bien saisir ce qui est ici en jeu, à savoir la distinction entre causalité et corrélation, revenons au premier cas, celui où les options entre lesquelles on doit choisir ont un impact causal sur les circonstances. L’expression qui définit une stratégie dominante – à savoir « quelles que soient les circonstances, telle option est meilleure que les autres » – perd alors tout sens puisque l’option détermine causalement les circonstances. Marie aime fumer et elle sait que cette habitude a toutes chances de lui causer un cancer du poumon. Toutes choses égales par ailleurs, elle préfère fumer à ne pas fumer ; toutes choses égales par ailleurs, elle préfère ne pas avoir un cancer du poumon à en avoir un.
Démontrons (faussement) en recourant au principe de stratégie dominante qu’il est rationnel pour Marie de continuer de fumer. Marie ne sait pas si elle va avoir un cancer du poumon ou non. Peu importe puisque, si elle doit l’avoir, elle préfère continuer de fumer ; et c’est ce qu’elle préfère aussi s’il est écrit qu’elle n’aura pas de cancer du poumon. Continuer de fumer est donc pour Marie une stratégie dominante. Que vaut cette démonstration ? Elle ne vaut rien, évidemment, puisqu’elle ignore le lien causal entre la décision de Marie et le fait qu’elle aura ou non un cancer du poumon.
Que se passerait-il si le lien entre les options et les circonstances était de nature contrefactuelle sans être pour autant causal ? C’est en ce point que trouve son origine le schisme qui divise aujourd’hui l’éthique rationnelle[12]. Pour introduire le débat je vais recourir à une illustration supplémentaire. Elle n’est pas quelconque car, ayant trait à la croyance au surnaturel, il n’y a pas de Big Data possible sur le lien entre options et conséquences ! Les « données » ne sont pas connues et, cependant, il faut choisir. Il s’agit de la célèbre thèse de Max Weber sur les liens entre l’éthique protestante, et plus précisément la doctrine calviniste de la prédestination, et l’esprit du capitalisme[13].
La thèse a la forme d’un paradoxe et ce paradoxe est le même que celui que nous venons de présenter à propos de la structure de corrélation due à une cause commune. Rappelons le schéma de l’explication wébérienne et, d’abord, son analyse, non pas de la doctrine de Calvin, mais de la façon dont les puritains de la Nouvelle-Angleterre l’ont réinterprétée, en fonction de leur milieu social et culturel et de leur psychologie individuelle et collective.
En vertu d’une décision divine prise de toute éternité, chacun appartient à un camp, celui des élus ou celui des damnés, sans savoir lequel. Les hommes ne peuvent absolument rien à ce décret, il n’y a rien qu’ils puissent faire pour gagner ou mériter leur salut. La grâce divine, cependant, se manifeste par des signes. La chose importante est que ces signes ne s’observent pas par introspection, ils s’acquièrent par l’action. Le principal d’entre eux – héritage du luthéranisme – est le succès que l’on obtient en mettant à l’épreuve sa foi dans une activité professionnelle[14].
Cette épreuve est coûteuse, elle exige de travailler sans relâche, méthodiquement, sans jamais se reposer dans la possession, sans jamais jouir de la richesse. « La répugnance au travail, affirme Weber, est le symptôme d’une absence de la grâce. »
La « conséquence logique » de ce problème pratique, remarque Weber, aurait « évidemment » dû être le « fatalisme ». Le fatalisme, c’est-à-dire le choix d’une vie oisive, manifestant la « répugnance au travail », est effectivement la solution rationnelle, puisque, quel que soit l’état du monde – ici, que l’on fasse partie des élus ou des damnés –, on n’a rien à gagner à se livrer à l’épreuve coûteuse de l’engagement professionnel. C’est évidemment la « stratégie dominante ». Tout le livre de Weber, cependant, s’efforce d’expliquer pourquoi et comment « la grande masse des hommes ordinaires » a fait le choix opposé.
Pour la doctrine calviniste populaire, « se considérer comme élu constituait un devoir. Toute espèce de doute à ce sujet devait être repoussée en tant que tentation du démon, car une insuffisante confiance en soi découlait d’une foi insuffisante, c’est-à-dire d’une insuffisante efficacité de la grâce ». « Le travail sans relâche dans un métier » était ce qui permettait d’obtenir cette confiance en soi, le moyen de s’assurer de son état de grâce.
Le débat qui opposa les Luthériens aux Calvinistes est aujourd’hui encore du plus grand intérêt. Les premiers accusèrent les seconds d’en revenir au dogme du « salut par les œuvres », au grand dam de ces derniers, outrés qu’on puisse identifier leur doctrine à ce qu’ils honnissaient par-dessus tout, la doctrine catholique. Cette accusation revient à dire que celui qui choisit d’acquérir au prix fort les signes de la grâce raisonne comme si ces signes étaient la cause du salut – comportement magique, insiste l’accusation, puisqu’il consiste à prendre le signe pour la chose[15] (l’élection divine). De là ce paradoxe historique et anthropologique considérable qu’une doctrine au départ parfaitement anti-méritocratique ait pu engendrer un type de société hautement méritocratique : il faut mériter son salut.
Il est possible de défendre la rationalité et l’éthique du choix calviniste[16]. Puisque celui-ci revient en fin de compte à se doter du pouvoir de choisir sa prédestination – Weber parle des puritains comme des « saints auto-proclamés » –, c’est-à-dire de la capacité de déterminer ce qui, dans le passé, vous détermine, cette défense implique d’inclure, dans le calcul des conséquences d’une action, ses implications contrefactuelles non causales. Pour justifier le choix calviniste il n’est nul besoin en effet de poser que les puritains se croyaient capables d’agir causalement sur le passé. Il leur suffisait d’un pouvoir contrefactuel sur le passé[17].
On aurait tort de croire que ce type de débat n’intéresse que quelques métaphysiciens enfermés dans leur poêle. Il est au cœur de certaines des grandes questions d’aujourd’hui, qu’il s’agisse de la crise de l’économie[18], de la stratégie de la dissuasion nucléaire[19], des rapports entre religion et démocratie[20], ou de l’attitude à adopter face aux catastrophes annoncées[21]. Une chose est certaine : le rouleau compresseur du Big Data, si on le laisse avancer, écrasera les distinctions conceptuelles les plus fondamentales dont aucune éthique ne saurait se passer.
Cet article a été publié pour la première fois le 22 mars 2024 dans le quotidien AOC.