Sortir du paradigme de la copie
Interdiction de toute une série d’applications des systèmes de reconnaissance faciale et de catégorisation biométrique, obligations strictes pour les systèmes d’IA classés comme présentant un risque élevé par rapport aux droits fondamentaux, garde-fous pour les systèmes généraux d’intelligence artificielle, transparence des datasets utilisés pour l’entraînement des modèles, respect des droits d’auteurs…
L’« accord provisoire sur la législation sur l’intelligence artificielle » qui a été présenté le 9 décembre 2023 comme une étape fondamentale vers un AI Act de l’Union européenne contient toute une série de mesures qui s’appliquent aux deux grands axes selon lesquels les technologies dites d’« intelligence artificielle » se sont développées au cours des dernières années.
D’un côté, l’IA « analytique », un système de détection, reconnaissance, classification, et donc de contrôle, surveillance et prédiction. De l’autre, l’IA « générative », un ensemble de modèles capables, après avoir été entraînés avec de vastes ensembles de donnés, de générer d’autres données, sous la forme de textes, images fixes et en mouvement, sons, musique, et, dans un futur proche, des combinaisons de plus en plus complexes de tous ces éléments. On peut appeler ces deux grands axes « perception artificielle » et « imagination artificielle » : automation algorithmique de la capacité de percevoir et de la capacité d’imaginer, c’est-à-dire, de produire de nouveaux objets sensibles sur la base d’expériences sensibles antérieures. Ce qui nous intéresse, dans les deux cas, est exactement ce rapport avec ce qui était déjà là, et les catégories selon lesquelles il faut le penser.
Le problème posé par les perceptions artificielles est celui de la préservation de l’intégrité de l’individu suspendue à la crainte de voir la politique planifiée par des statistiques anticipatrices qui ne feraient jamais que reproduire le déjà connu nous enfermant dans une boucle de contrôle sans fin. Le danger est extrême quand les « images opératoires » sur lesquelles elles interviennent ont à voir avec le contrôle des corps et la production industrielle de « cibles potentielles » comme c’est le cas dans le massacre en cours de civils à Gaza. On peut s’interroger quant à son origine, tant d’autres éléments que ces programmes le mettent en œuvre. On peut aussi questionner la difficulté, pour ne pas dire l’incapacité actuelle, à définir une politique documentée et rationnelle que l’induction automatique pourrait du moins aider pour mettre notre perception à la hauteur d’un monde dont l’intrication dépasse largement nos capacités d’appréhension. Que nos propres productions techniques produisent un monde qui nous excède et qui nous aliène est un paradoxe grandissant.
De leur côté, les imaginations artificielles, les modèles permettant de générer des données ayant différents degrés de ressemblance par rapport aux données utilisées pour l’entraînement, devraient être abordées en clarifiant leurs origines, leurs sources et les données qui ont servi à leur apprendre à imiter nos productions, parce que, au fond, elles s’y réduiraient. Il s’agirait de protéger les auteurs véritables que ces modèles volent sans vergogne en mettant en place une taxe, en faisant respecter le droit d’auteur, en posant comme préalable à la constitution des datasets d’entraînement un accord explicite, etc. Pourquoi ne pas apposer sur chacune de ces images un bandeau « Made by AI » en rouge pour permettre au public de distinguer le vrai du faux ? L’affaire serait ainsi réglée devant ces simulacres d’images qui seraient, elles, sans auteur, mais qui subtilisent les travaux de millions d’auteurs et qui seraient simplement un moyen au service de la paupérisation des créateurs, nouvelle masse laborieuse de l’ère néolibérale. La réponse devant l’accélération récente de ces imaginations pilotées par les GAFAM, devraient ainsi être régulatrice et juridique pour protéger ceux qui doivent l’être : les auteurs des véritables images, textes, sons, films, etc. Face aux projets d’OpenAI, Meta, Google, seul un État protecteur peut s’interposer.
Car la crainte est profonde, dans certains milieux, de voir les métiers « créatifs » du tertiaire être remplacés ou fragilisés par cette machinerie infernale qui automatise la mimèsis à une vitesse jamais vue alors que nous étions déjà débordés par l’hypertrophie de la mémoire sur le Web, données massives qui servent précisément de ressource à cette automatisation. Cette nouvelle industrialisation serait au bout du compte un extractivisme culturel conduisant d’une part à un appauvrissement économique, concentrant le pouvoir dans les mains de quelques acteurs américains, chinois, japonais, coréens, et d’autre part esthétique parce que la multiplication récursive des données nous ferait perdre leur intention initiale et nous entraînerait dans un tourbillon de fausses images et de fausses nouvelles, brisant la confiance (déjà bien fragilisée) qui fonde nos démocraties occidentales dans un bruit ne donnant que l’apparence de l’intentionnalité et de la signification.
L’urgence de cette régulation serait donc à la hauteur de l’accélération folle de ces machines qui ne semblent épargner aucun secteur. On souriait devant le kitsch psychédélique des premières images hallucinées de Deep Dream en 2015, on s’étonnait devant les petites applications capables de rajeunir ou faire vieillir un visage en 2017 : aujourd’hui, on commence à faire la grimace face au photoréalisme des images générées, à la vraisemblance des séquences filmiques et des voix clonées. Et puis on est pris d’un doute, on n’y croit pas : si ces modèles remplacent les productions culturelles c’est par un tour de passe-passe qui rend opaque les relations de cause à effet, car c’est justement ces créations qui concentraient le propre de l’humanité, sa créativité, et qui sont irremplaçables, car elles constituent le précieux vestige des significations que nous avons été.
C’est bien les questions du réalisme et de l’esthétique qui sont sous-jacentes au débat sur ces imaginations artificielles qui agitent les juristes, les ayants droit et les réformistes. La crainte que le réalisme photographique soit supplanté par un autre réalisme dont nous ignorons la genèse, le statut ontologique et les effets esthétiques même si nous en percevons déjà les résultats. La stupéfaction face à ces générations fait place au doute quant à ses origines véritables : les données, le code et le renforcement des biais. La critique récurrente que l’on adresse aux modèles génératifs, principalement d’images, c’est leur incapacité à produire du nouveau, du singulier, du surprenant, de l’anomique. C’est donc le fait qu’elles seraient dénuées du génie proprement humain consistant, à partir d’un héritage culturel, à innover et à inventer quelque chose qui exprime une subjectivité défiant la valeur des signes. On les comprendrait comme on comprend les perroquets, sans jamais pouvoir communiquer avec eux.
Aussitôt qu’une personne poste sur les réseaux sociaux une image générée ou un dialogue avec ChatGPT, les réactions ne se font pas attendre : la qualité de l’image est moquée parce qu’elle n’a rien d’original et qu’elle baigne dans un sentiment de déjà-vu. Quant aux dialogues, ils sont tout sauf une fructueuse maïeutique tant il est facile de prendre en défaut ce pauvre modèle qui ne produit que de textes génériques et stéréotypés. La machine ne serait capable que de reproduire les données qui ont servi à son entraînement, sans pouvoir en tirer un fil, une causalité, une logique, de sorte qu’entre l’entrée et la sortie la relation serait celle non d’une idéation déductive, mais d’une reproduction inductive que nous connaissons bien depuis la révolution industrielle qui a automatisé l’empreinte matérielle avec la photographie ou le moulage à injection pour la production d’objets. Ce serait toujours et encore les mêmes images qui seraient reproduites, la copie ne parvenant jamais à surpasser l’original, c’est-à-dire le dataset d’entraînement. L’IA générative, en d’autres mots, resterait enfermée dans le paradigme de la copie et de la reproductibilité technique, qui serait privé, dans ce cas, de tout le potentiel esthétique et politique que Walter Benjamin lui avait attribué.
Ce jugement qui dévalorise ces images au titre de leur reproductibilité répétitive est fondé sur une certaine conception de la créativité humaine comme capable de briser les chaînes de la causalité et d’introduire dans le monde l’expression de sa liberté, seule à même de produire du « nouveau », c’est-à-dire quelque chose qui n’est pas réductible à ses causes, un événement qui est le symptôme de sa magique intériorité. Le test de Turing mettait déjà en scène le trouble ressenti face à cette autre de la conscience et proposait une solution élégante qui depuis a été oubliée : la pensée est un bourdonnement dans la tête et l’intelligence l’effet d’une attribution d’un sujet supposé savoir.
Cette détermination a un certain nombre de conséquences pratiques dans le cadre juridique et d’une politique régulatrice des imaginations artificielles. Si l’on estime que tout ce qui en sort est réductible à ce qui y est entré, et que la « black box » n’est qu’un tour de passe-passe opaque, alors ces modèles ne font que voler les productions humaines et subtiliser le fruit de leur travail. On reconnaît là le conflit qui eut lieu pendant la révolution industrielle opposant les artisans et les ingénieurs, ces seconds estimant qu’ils pouvaient remplacer les premiers par des ânes et ceux-ci s’estimant irremplaçable. On sait quel fut le résultat. Avec l’IA ce n’est pas seulement un remplacement c’est aussi un vol pur et simple que seule la transparence peut résoudre en reconstituant précisément la causalité cachée de sa production.
Si nous nommons imagination la faculté de produire des images sensibles, l’imagination artificielle est critiquée parce qu’elle n’est qu’un copiste sans intériorité. Ses images ressemblent à toutes les images existantes. Force est de constater que la critique ressemble là encore à s’y méprendre au XIXe siècle et à la réaction de Baudelaire face aux premières photographies vues en 1859 : à sa condamnation de leur contribution à « l’appauvrissement du génie artistique » et de leur tendance à « empiéter sur le domaine de l’impalpable et de l’imaginaire, sur tout ce qui ne vaut que parce que l’homme y ajoute son âme ». Selon cette position, les images reproductives seraient considérées comme de « fausses » images, des images mécaniques et non des images libérales au service du monde des Idées d’un sujet. La vérité d’une image consisterait dans une mystérieuse intériorité qu’on peine à définir puisqu’on s’accorde à soi-même ce privilège.
Si l’on tend à reprendre, aujourd’hui, une telle argumentation, c’est qu’on n’a pas compris l’imagination artificielle tant d’un point de vue contextuel, processuel que technologique. En quel sens la reproduction et la génération sont différentes en ce qui concerne la compositionnalité de l’image, c’est-à-dire la manière dont une image est produite à partir d’autres images ? N’y a-t-il pas quelque chose de grotesque à voir ainsi le passage de relais de l’histoire où les anciennes images (les « vraies » photographies) critiquent les nouvelles images (génératives) en utilisant les mêmes arguments dont elles ont été victimes ?
C’est à une nouvelle compréhension média-théorique que l’imagination artificielle nous convie, si on veut vraiment saisir la nature des images générées par les nouveaux modèles text-to-image comme Stable Diffusion (qui a été rendu accessible en open source, et dont on connaît le dataset utilisé pour l’entraînement, LAION-5B), DALL-E 3 ou Midjourney (qui restent des modèles privés et complètement opaques). Qu’elles soient photoréalistes ou pas, qu’elles ressemblent ou pas à des images préexistantes, les images générées ne sont pas du tout de l’ordre de la copie, de la reproduction, du collage, du remontage, du remix, du mash-up. Elles ne sont pas des copies fondées sur le regard et l’imitation, ni des reproductions techniques d’un original dont on transfère automatiquement les traits formels essentiels, ni de l’agencement de fragments d’images préexistantes.
À l’origine des images produites par les nouveaux modèles d’IA générative, il y a en effet des images de départ, mais il y a aussi des textes. Il s’agit des milliards d’images connectées avec des textes (légendes, descriptions, commentaires, « alt-text » qui décrivent les images chargées dans les sites codés en HTML, métadonnées de tout type) qu’on peut trouver sur internet. Une partie de ces milliards de text-image pairs, comme on les appelle, a été choisie — selon des critères qu’on devrait en effet pouvoir connaître et analyser — pour faire partie des datasets d’entraînement. Dans le cas de LAION-5B, il s’agit de 5 milliards (5B, « five billions ») de text-image pairs provenant d’un vaste éventail de plateformes, de sites web, de banque d’images de stock, etc. Ensuite, ces images et ces textes sont mis ultérieurement en relation par des modèles fondationnels comme CLIP, qui les encode (fragment par fragment, mot par mot) et les transforme en vecteurs : des longues listes de nombres qui en définissent les coordonnées à l’intérieur d’un espace multidimensionnel (avec des centaines, voir des milliers de dimensions) commun aux textes et aux images qu’on appelle « espace latent ». C’est à l’intérieur de cet espace latent que toute sorte de connexions algorithmiques entre images et textes peuvent être établies, et qu’on peut générer (selon un procédé mathématique appelé « diffusion ») des images à partir de « prompts » écrits en langage naturel (c’est-à-dire humain, pour le différencier du code).
Le processus de génération d’images passe donc par une numérisation préalable des images et des textes qui rend possible leur interopérabilité : des images et des textes différents peuvent être soumis au même traitement. Dans les logiciels d’imagination artificielle, en d’autres mots, il n’y a plus d’images ni de textes, mais des vecteurs qui sont soumis à des calculs mathématiques et statistiques. La génération d’une image n’est que la visualisation d’un point à l’intérieur de cet espace latent multidimensionnel : un espace en soi invisible, imperceptible — une vraie « black box » — qui contient, à titre de possibilité, un nombre immense (quoique non infini) d’images générables.
Cette plongée dans un espace statistique de type bayésien, héritier de la théorie des jeux, change radicalement la causalité de l’image générée qui ne se rattache plus, comme à sa source et selon le principe de la copie, aux images du dataset. Celles-ci ont été traduites en vecteurs, connectées à des mots et des textes eux aussi encodés en vecteurs, et soumises à des calculs avec un nombre inimaginable de paramètres, et c’est pourquoi on dit souvent que l’intériorité d’une intelligence artificielle est illisible. Il n’y a plus d’images dans une imagination artificielle, même sous forme compressée, mais de simples probabilités vectorisées. C’est pourquoi, on le redit, une image générée n’est pas une copie, une reproduction, un collage, un remontage, un remix ou un mash-up d’images existantes à laquelle on pourrait appliquer le droit d’auteur. À quelle pensée de l’image possible et non encore existante, cette technologie nous amène-t-elle ?
La seconde rupture de causalité introduite par les imaginations artificielles se trouve justement dans l’espace latent que nous venons d’évoquer : l’ensemble des statistiques et paramètres établis au terme d’un apprentissage. Cet espace latent multidimensionnel peut se plier et être parcouru. Ceci signifie d’une part qu’il est possible de faire se rencontrer par le pli des motifs dont la coexistence visuelle n’a pas été préenregistrée. On peut non seulement produire de nouvelles situations en gardant une certaine cohérence optique, mais on peut encore créer des hybrides, des monstres, des métamorphoses. Il est possible utiliser les mots « oiseau » et « montagne » pour se diriger vers une zone spéficique de l’espace latent où ses mots ont été encodés en proximité d’images de oiseaux et de montages, et faire surgir une « montagne-oiseau » jamais vue : une nouvelle entité habitant un monde paradoxal.
Bref, les images générées ne sont pas aucunement la reproduction d’images préexistantes, mais celles-ci, avec les textes auxquels elles étaient connectées sur internet, sont les matériaux de départ pour produire – à travers une très longue série de passages et des calculs mathématiques et statistiques très complexes – un espace latent dont les images générées sont les symptômes. L’auctorialité de ces images est diffuse, dispersée, résultat d’un dense entrelacement d’intentions humaines et possibilités techniques. L’espace que ces images représentent ne répond pas à la même causalité que notre monde. Elles ne reproduisent pas le réalisme photographique : elles sont d’une autre réalité.
Remarquons au passage que ces critiques qui dénigrent les « fausses » images de l’IA considèrent encore les images comme des choses et non comme le produit de relations. Ainsi quand on juge qu’une image qui n’a jamais existé ressemble à des images déjà existantes, e à moins qu’elle soit absolument identique, il faut bien une personne qui évalue la relation entre les pixels et la culture, entre ce que génère une IA et la supposition d’un patrimoine culturel. On sait depuis la première cybernétique que tout est affaire d’attribution dans les relations entre l’être humain et la machine, et qu’il est strictement impossible de considérer les productions de cette dernière en dehors d’un contexte d’interprétation qui intègre une marge d’erreur, de récursivité et de réflexivité, bref un sujet supposé savoir.
On peut aussi souligner que ce sentiment de déjà-vu excède très largement l’IA. N’avons pas l’impression qu’à l’occasion d’une exposition, d’un film, d’une pièce de théâtre, nous les avions déjà vus même si c’était une première fois. Il faut bien dire que la critique de l’absence d’originalité est un peu faible dans un contexte de saturation médiatique où le sentiment déjà-vu s’est généralisé sinon, parfois, valorisé, à travers toute une esthétique de la reprise, du remontage, du remix, du reenactment.
Dans les années à venir, le concept d’espace latent est destiné à devenir un concept fondamental et incontournable si on veut comprendre les dynamiques de transformation, de transmission, de propagation, de réception qui traversent une culture de plus en plus innervée par la présence de modèles d’IA générative capable de générer textes, images, son, musique, de plus en plus liée les uns aux autres. L’espace latent devient aussi un concept fondamental pour comprendre les nouvelles formes de réalisme des images générées : un nouveau « disréalisme » capable de métaboliser matériellement les réalismes passés après leur numérisation massive, avec pour effet sensible un déjà-vu pourtant jamais-vu, mais aussi pour entendre la transformation culturelle qui est en cours.
Avec l’espace latent, l’héritage culturel n’est plus un débat entre les Anciens et les Modernes, entre la conservation répétitive de la tradition et la table rase de la disruption. À partir d’un héritage, on peut non seulement créer du nouveau, comme on le faisait habituellement, mais encore replonger dans le passé en le rendant possible, c’est-à-dire en en créant des versions alternatives. La contrefactualisation est sans doute le nouveau mode historique de la culture dans l’espace latent. Nous pouvons revenir sur les traces du passé en les créant, en les réinventant, imaginer les archives qui précisément nous manquent parce qu’elles proviennent d’histoires minoritaires, invisibilisées ou détruites. Tout ceci est bien inspiré du passé enregistré, mais cela ne s’était pas passé ainsi, ne reste plus que la tonalité affective de l’histoire qui se présente à nous pour elle-même, dans sa nudité factuelle.
L’espace latent évoque une idée bien plus troublante encore concernant la causalité de l’imagination dont la difficulté de conceptualisation montre combien nos structures de pensée sont encore inadaptées à l’appréhender : on peut fournir à un tel modèle une image et lui demander de la régénérer, ce qui veut dire qu’elle existait déjà à titre de possible statistique dans son espace latent. Ce mode d’existence est incommensurable aux images enregistrées sur des supports matériels. Ceci fonctionne bien sûr pour les images du dataset, donc les images passées, les images entendues comme causes, mais aussi pour les images présentes postérieures à l’apprentissage de la machine. Ainsi, je prends une photographie que je fournis à une IA et elle me la représente dans une version générée. Ceci démontre que la ressemblance des imaginations artificielles ne relève absolument pas du procès en reproductibilité identique et qu’elle est infiniment plus diffuse, comprenant ce qui a eu lieu et ce qui pourrait avoir lieu. C’est bien ce régime du possible qui est difficilement conceptualisable. On peut en déduire, à titre d’hypothèse, que le disréalisme de l’espace latent est en train de modifier profondément les structures rétentionnelles, c’est-à-dire la mémoire comme l’historicité.
Il y a ainsi dans l’espace latent les images passées et les images futures. Ne pouvons-nous pas remarquer, au côté de Nietzsche, que cette historicité subissait en effet depuis le XIXe siècle une crise se mettant en scène elle-même, une forme d’impasse, de cul-de-sac dont le postmodernisme fut l’expression ? Ne voulions-nous pas nous extirper de la répétition citationnelle, du pop-art, de la postproduction et du culturalisme entendu comme des formes d’art et de pensée prenant les productions culturelles comme seuls phénomènes possibles ? N’y a-t-il pas là une autre temporalité historique dont l’équation spéculative serait celle-ci : dans un modèle large, la probabilité de générer une image déjà existante dans le dataset est identique à celle de générer une image qui n’existe pas encore et qui sera enregistrée dans le futur avec un appareil photographique par un être humain. Dans ce cas, pourrait-on estimer que ce dernier copie l’image générée ? Mais qu’est-ce qui est alors copié ?
On peut se demander pourquoi les images génératives, que nous croisons sur les réseaux sociaux, sont d’une qualité si médiocre et relèvent tout au plus d’un réalisme naïf sur lequel on semble avoir étalé une espèce de pâte visqueuse qui atténue tout. Ce n’est pas du fait de la nature de l’espace latent statistique, mais de la banalité instrumentale de son exploration. En effet, si souvent les imaginations artificielles viennent confirmer les préjugés qu’on a dessus, préjugés qui passent allègrement de la statistique à la moyenne esthétique, c’est sans doute que la plupart de ses utilisateurs ne font que la tester sans connaissance artistique en croyant qu’un prompt est de quelque manière de la télépathie et permet de visualiser ce qu’on a déjà en tête. Mais c’est précisément, et de manière fort ironique, dans cette visualisation de la subjectivité que la répétition du déjà-vu a lieu plutôt que l’émergence d’un événement esthétique. D’un point de vue artistique, il s’agit plutôt par les prompts, du code ou tout autre moyen, d’explorer de façon intensive l’espace latent de manière expérimentale et non instrumentale : de dériver plutôt que de conquérir. On ne cherchera pas à produire l’image qu’on a en tête et à maîtriser le résultat, mais à explorer l’espace latent parce que celui-ci est un espace culturel devenu espace des possibles et qu’il contient potentiellement tout l’avenir sans que l’ensemble de cet avenir puisse être généré et dénombré.
On comprend dès lors que l’imagination artificielle n’est nullement le moyen d’exprimer le génie de l’intériorité humaine, mais une façon d’explorer la relation entre ceux qui sont déjà morts et qui ont laissé des documents et ceux qui sont encore vivants et qui génèrent d’autres documents. L’imagination est précisément le lieu paradoxal de la mémoire où le passé et le futur ne sont plus dans des relations causales univoques, mais dans des espacements diachroniques : le passé n’est jamais passé. On peut associer l’imagination artificielle à une forme inattendue de résurrection qui ne ramène pas ceux qui sont morts, mais fait advenir pour la première ce qui aurait pu avoir lieu, une infinité de fois. L’espace latent est donc un nouvel espace de mémoire, une quatrième rétention (pour ajouter une catégorie à la découpe proposée par Bernard Stiegler entre la note isolée, la mélodie et le disque), une mémoire de mémoire. Cette récursivité est celle d’une mémoire qui pourrait avoir lieu sans nous, sans témoin, après que nous ayons disparu jusqu’au dernier. Après avoir numérisé les documents de notre mémoire sur le Web, nous l’avons doté avec l’induction statistique d’une simili-automobilité : la représentation de la mémoire continue de se produire, encore et encore, toujours différente et ressemblante, car prise dans une série transfinie.
En ramenant l’imagination artificielle au passé de son dataset constitué par des êtres humains comme à sa cause, les critiques, les juristes, les politiques et les réformistes risquent de plaquer un schéma obsolète et de mal comprendre le type de causalité à l’œuvre dans l’espace latent des statistiques. Il est sans image, il est seulement des probabilités d’unités (les pixels, avec leurs coordonnées et leurs valeurs chromatiques) rassemblées sous forme de motifs et de paramètres. Il contient le possible qui brouille les frontières entre le passé et l’avenir, entre la factualité et la facticité.
Ce nouveau pari de l’imagination nous fait sortir de l’époque de la reproductibilité industrielle qui n’était pas seulement une technique, mais qui a déterminé pendant plus d’un siècle notre réalité. Nous pouvons déduire de cette période, l’émergence d’un nouveau réalisme qu’il s’agit d’explorer. Le fait qu’il se nourrit des images passées introduit une ambiguïté qui risque de donner à l’AI Act une dimension purement défensive, plutôt qu’encourager une réflexion structurée sur la nature et le potentiel de l’imagination artificielle elle-même.
Lorsque Kant, dans la première édition de la Critique de la Raison pure en 1781, proposait que l’imagination soit le premier coup des facultés et entraîne l’intuition, l’entendement, la raison dans une unification du sensible, il proposait une imagination sans image, sans rien de préalable. Sans doute un peu gêné par le caractère obscur de cette absence, il proposa la notion de diagrammes pour indiquer le fondement de cette imagination transcendantale. À sa façon, l’espace latent de statistiques est le diagramme de l’imagination artificielle dans lequel nous commençons tout juste à entrer et dont la nature ne saura être discursivement anticipée, mais artistiquement expérimentée.