Numérique

Angèle et l’art.ificiel

Artiste

En août, un producteur dévoile un remix où la voix clonée d’Angèle chante un morceau qu’elle n’a jamais interprété, mais qu’elle reprend lors de son concert à la Fête de l’Humanité. Face aux discours omniprésents et étouffants du remplacement par l’IA, Angèle et son public jouent ainsi une autre partie : il y a sans doute un peu de peur et d’étonnement, mais surtout un amusement dans le jeu infini des simulacres et des ressemblances.

En août, un producteur basé à Nancy, Lnkhey, publie sur SoundCloud et YouTube un remix où la voix clonée d’Angèle, grâce au logiciel libre Retrieval-based-Voice-Conversion, chante un morceau qu’elle n’a jamais interprété. Plusieurs millions de personnes l’écoutent. Angèle réagit sur Tik Tok : « je ne sais pas quoi penser de l’intelligence artificielle, jtrouve c’est une dinguerie, mais en meme temps jai peur pour mon metier mdrrrrr ».

publicité

Sur cette vidéo, elle chante en play-back ce remix puis fait une moue amusée comme si elle était prise de vertige face à cette voix ressemblante qui n’est pas la sienne. Après de nombreuses demandes sur les réseaux, le dimanche 17 septembre, à la Fête de l’Humanité, elle interprète enfin « Saiyan » de Gazo et Heuss l’Enfoiré :

« Elle a les cheveux dorés et la peau bien bronzée / Elle boit du Daïquiri, elle m’appelle “ma chérie” / On va pas finir l’année, on va se séparer / Sur moi, t’as tout misé, mais j’suis qu’une enfoirée »

La seule différence est la féminisation des paroles et le trouble de genre que celle-ci implique lié au coming out forcé à la fin 2019 et au fait que dans le remix de Lnkhey, c’était la voix masculine de celui-ci qui est transformée en celle d’Angèle. Tout se passe, dans ces paroles, comme si Angèle se dédoublait et se regardait du dehors puisqu’elle a aussi « les cheveux dorés ». Le public est enthousiaste et reprend en cœur les paroles tout en tendant à bout de bras leur téléphone pour immortaliser ce moment. Immédiatement, c’est une traînée de poudre sur les réseaux. @adlan_mzn poste : « POV : quand l’IA d’Angèle sur Saiyan devient enfin réalité ». Quel est ce morceau qui « devient enfin réalité » ? Qu’était-il avant de devenir, par l’interprétation d’Angèle, réel ? Quelle a été la nature de la demande insistante du public pour que cette interprétation ait lieu et que révèle-t-elle de la nouvelle culture de l’IA ?

Le jeu d’emboîtement de ce remix est vertigineux et son origine semble se perdre dans une zone grise où la distinction entre l’être humain et l’IA devient inconsistante. Car dès la première étape, Gazo et Heuss l’Enfoiré chantent avec Autotune, célèbre logiciel apparut au milieu des années 90, qui fut développé par Andy Hildebrand et qui permet de chanter juste quand on chante faux, de simuler une compétence vocale qui fut moquée jusqu’en 2010, époque où en poussant à l’extrême l’effet, celui-ci devint un véritable style teinté d’une sonorité métallique. Autotune signalait alors le simulacre de son origine artificiel et plutôt que d’être une correction, il devint une véritable culture plongeant ses racines dans le hip-hop des années 70 et 80 où des danseurs en mimant des mouvements mécaniques exprimaient leur talent humain. Quel était cet affect, avec un public complice, qui savait que des êtres humains simulaient des machines, retournant comme un gant et détournant le contrat implicite du test de Turing ?

Car il y a une remarquable intelligence, au sens de la complicité, dans ce simulacre de l’humain artificiel qui se reconnaît comme tel et qui jouit, dans un clin d’œil, de sa doublure technomorphique. Il y a une complicité spécifique entre l’artiste et son public de se savoir ainsi outillé, cloné, simulé. Et ce sentiment commun est encore décuplé dans le réseau complexe de ce remix qui du morceau original hanté par son artificialisation d’Autotune, par l’apprentissage de la voix d’Angèle grâce à 10 minutes d’échantillon, par Lnkhey qui chante et transforme sa voix grâce à RVC, par la publication, le succès public qui s’amuse d’un tel simulacre, la première réaction décalée d’Angèle puis son interprétation à la Fête de l’Huma, change profondément les modes de reproduction culturelle.

Andy Hildebrand, le créateur d’Autotune, était sismographe et travaillait dans l’industrie pétrolière où il étudiait les sols et réalisait des prédictions sismiques pour l’entreprise Exxon. Dans le cadre de son travail, il met au point une méthode basée sur l’autocorrélation, qui permet d’envoyer des ondes acoustiques dans les sous-sols pour voir si une exploitation pétrolifère est possible. C’est précisément cette technique qu’il va utiliser pour créer Autotune en 1995 où on envoie une voix et, comme s’il s’agissait de son écho, une autre voix nous est renvoyée. Or, le changement culturel d’Autotune ne consiste absolument pas en l’intention initiale de son programmeur qui restait instrumentale, c’est-à-dire dans le fait de chanter juste et de tuer les fausses notes, mais dans son détournement qui, quand on pousse l’effet à l’extrême, rend explicite son artificialité et créé une nouvelle esthétique où le simulacre est visible. Hildebrand explique qu’il n’avait « jamais imaginé que quelqu’un de sensé ferait cela ».

L’angle mort du remplacement

Face à cette circulation des simulacres rendus sensibles où chaque agent semble joyeusement expérimenter son devenir machine, allant et venant entre la technique mimant l’être humain et l’être humain jouant à mimer la technique, pour construire un nouvel espace anthropotechnologique où se perd l’origine et où s’affirme les dépendances réciproques, le discours dominant reste à la crainte et à la volonté de régulation. La thèse d’une humanité remplacée semble s’étendre chaque jour, avec des modalités différentes selon le positionnement politique, et s’applique à l’ensemble des flux, c’est-à-dire à ce qui pourrait nous déborder et être hors de notre contrôle : du climat à l’énergie, de l’économie aux migrations, des virus à la technique, etc. C’est une précarité généralisée que chacun semble ainsi imaginer et dont il faudrait se défendre en construisant des protections tournées vers le dehors dans l’objectif de protéger l’autonomie d’une humanité fantasmée.

Si, emboîtant le pas des scénaristes, les 160 000 acteurs syndiqués au SAG-Aftra font grève à Hollywood, c’est pour deux raisons principales ayant trait à la question de la reprise : d’une part, ils demandent des droits sur la multidiffusion en streaming et non plus seulement sur la création originale, d’autre part des garanties quant à l’IA qui risquerait de les cloner ou de les remplacer. C’est donc là encore la question de la répétition et du simulacre qui sont en jeu, mais essayons, l’espace d’un instant, de plonger dans ce flux plutôt que de nous en extirper d’avance.

Imaginons un monde où chaque acteur aurait sa voix et son apparence clonées grâce aux technologies de deepfakes et où les figures humaines passées, de Marilyn à Dean, puissent être rejouées, encore et encore. Si on estime que le cinéma, héritier du photoréalisme, a été constitutif de notre réalisme au siècle dernier, on peut s’interroger sur cette transformation radicale de la représentation : non plus seulement un avoir-été qui revient dans la répétition de la pellicule, identique à lui-même, mais un avoir-été qui est repris, rejoué, réinterprété, réactualisé, renouvelé, bref une seconde fois qui est première. Cela n’affecterait pas seulement ces figures humaines, mais la constitution du temps lui-même qui par une telle résurrection, fort différente de la théologie chrétienne, nous ferait entrer dans un éternel retour du même, un éternel retour idiot et répétant la moyenne statistique, se distinguant de l’interprétation d’un éternel retour de la différence que Deleuze ou Klossowski avaient rendue pour ainsi dire canonique.

La mise au chômage des acteurs clonés et décomposés, puisqu’on peut déjà prendre la voix de l’un pour le mettre sur le visage de l’autre, ou automatiquement la traduire dans n’importe quelle langue en la synchronisant avec le mouvement des lèvres, serait bien sûr une accumulation plus grande du capital, mais ouvre aussi la voie à un monde difficilement imaginable où notre mémoire ne serait plus seulement accumulée sur des supports matériels, que Bernard Stiegler avait nommé rétentions tertiaires, mais statistiquement construites et ressuscitées comme dans le cas de cette « nouvelle » reprise des Beatles par Kurt Cobain. Or ces supports matériels, qui sont la technique elle-même, déjà à l’époque industrielle, n’étaient pas simplement rajoutés aux rétentions primaires (ce qui se passe dans le présent de la conscience, par exemple une note de musique) et aux secondaires (ce dont nous nous souvenons et que nous avons sélectionné), mais surdéterminaient de part en part les deux précédentes et la possibilité même de la mémoire et des facultés transcendantales.

L’IA est l’apparition d’une mémoire quaternaire qui se nourrit pour calculer leurs probabilités statistiques des tertiaires ayant atteintes, par les données massives du Web, leur apogée d’accumulation. Nous produisons des médias de médias, des textes de textes, des images d’images et cette reproduction n’est pas simplement instrumentale, elle change sa propre nature et notre réalisme. Serait-ce encore du cinéma quand les entités projetées à l’écran seront le fruit d’un calcul statistique, répétant d’abord des acteurs connus puis créant peut-être de nouvelles entités, à la manière de ces chanteuses virtuelles japonaises, aliénant jusqu’à notre humanisme, c’est-à-dire la reconnaissance de nos semblables ? La catharsis aristotélicienne nous permettant de nous identifier par projection se fera-t-elle encore par-delà la reconnaissance des formes organiques ?

Si le remplacement est conjuré, ce n’est pas seulement du fait de l’accumulation et de la concentration du capital, qui avec ou sans IA a lieu, mais bien parce que ce remplacement a un angle mort qui suppose que nous sachions à quoi nous avons affaire et ce que nous sommes. Si nous avons peur d’être remplacé c’est que nous croyons savoir ce qui est remplacé. Il s’agit d’une place évidée, la nôtre, et c’est pourquoi on peut estimer de ce point de vue que la conjuration du remplacement est, dans l’entièreté du spectre politique, homogène. Elle désigne la crainte d’une altérité parce que celle-ci attaque l’angle mort de celui qui l’énonce : la vacuité de sa propre position. Ceci est évident pour la xénophobie, mais doit être étendu à l’humanisme technocritique qui suppose toujours qu’on sait à quoi on a affaire en ce qui concerne l’être humain.

Ainsi, quand on interdit l’usage de ChatGPT dans une école sous peine d’exclusion des élèves, on tente de préserver la position d’autorité de l’enseignant et le caractère normatif du travail demandé, même si celui-ci est aisément clonable. Quand Bruno Le Maire, alors qu’il s’exprimait devant le Parlement européen le 22 mai 2023, explique qu’il faut placer un bandeau « Made in AI » sur les productions de Mid Journey ou ChatGPT, c’est au nom de la transparence, du signalement et de la traçabilité. Il faut qu’on sache qui a fait quoi. Est-ce de l’être humain ou de la machine ? Qu’est-ce qui est en nous et hors de nous ? Quelle est la frontière ?

Mais que certains artistes aient pu douter, au seuil du XXe siècle, de cette attribution anthropologique de l’art, le ministre n’en a cure. Que Picabia, Duchamp, Ernst, à sa manière encore Turner, et tant d’autres, aient pu imaginer que la technique était infiniment plus trouble qu’un simple instrument au service de notre volonté (de puissance), et que l’art puisse être précisément le lieu où des machines rendues orphelines de l’humanité voient le jour, voilà ce que la conception commune méconnaît tant elle reste fidèle à l’idée de l’art construite par Balzac, et du premier artiste représenté dans un roman, Frenhofer du Chef-d’œuvre inconnu (1831).

La volonté d’attribution marque le désir de se réattribuer une intériorité subjective au moment où celle-ci constitue et est constituée par l’extériorité technique et est structurellement aliénée. C’est un lieu commun que de dire qu’on n’écrit pas à la plume comme sur une machine à écrire, sur une telle machine comme sur un clavier d’ordinateur, que la répétition manuscrite où on devait réécrire et faire des repentirs de version en version à la main ne pense pas dans la même temporalité que quand on passe du brouillon à une version finale, en copiant et collant, sur Word ou Open Office. Bref, que les deux premières mémoires abordées par Stiegler sont travaillées par la troisième rétention et qu’à notre sens, ces trois mémoires commencent à être emboîtées dans la quatrième mémoire, celle de l’IA et de l’induction statistique : quand j’écris un texte avec ChatGPT ce n’est ni un texte original ni la simple répétition et synthèse des textes qui ont alimenté le réseau de neurones, c’est tout à la fois, tout comme ce présent texte est singulier, mais est la mémoire, et la répétition, de tout ce que j’ai lu.

La culture de l’espace latent

Lundi soir, j’ai donc regardé en boucle Angèle reprendre une IA qui la clonait et Taylor Swift se déhancher sur « Paint the Town Red » de Doja Cat, au moment où, à deux reprises, elle semble regarder la caméra et se sait filmée. Elle, la célébrité américaine, devient une auditrice, fait partie du public et dédouble celui-ci. Nous sommes devenus le second public complice de ce regard adressé, tout comme il existe aujourd’hui dans l’espace latent, c’est-à-dire dans l’ensemble des statistiques d’une IA, des médias de médias qui troublent leur paternité. Je n’ai pas pu m’empêcher de regarder ces deux séquences en boucle comme si elles portaient, chacune à leur manière, leur propre répétition, idiote et répétitive, compulsive.

Dans Tubes. La Philosophie dans le juke-box, Peter Szendy aborde le ver d’oreille, cette pulsion à écouter encore et encore le même morceau, et s’il fait d’« Around the World » des Daft Punk le paradigme, cette chanson énonçant sa propre circulation planétaire, chaque auditeur devenant à sa manière le support de celle-ci, c’était à l’époque de la mondialisation néolibérale. Angèle marque un nouveau ver d’oreille à l’ère de l’espace latent de l’IA. Lorsque nous l’écoutons, nous entendons l’anthropotechnologie, c’est-à-dire la zone grise qui trouble la frontière entre l’être humain et la technique selon de multiples fils. Le ver d’oreille devient statistique : dans le vacillement de cette voix, humaine trop humaine, et qui à un moment rigole de l’inhumanité de cette reprise, nous entendons la manière dont l’art n’est nullement l’extériorisation d’un génie humain dans une matière, une forme et un usage déterminés, mais est la rencontre égarante avec une matière que celle-ci soit technologiquement organisée ou pas. L’être humain invente la technique et, au sens strict, Angèle est inventée par une technique qui la clone.

L’espace latent est notre nouvel espace culturel dont les produits sont contrefactuels. La chanson d’Angèle existait avant d’exister réellement, elle existait comme une statistique ou, selon les cas, un possible. Il a fallu qu’elle naisse à la réalité par cette reprise de reprise. C’est la signification ontologique du post déjà cité : « Quand l’IA d’Angèle sur Saiyan devient enfin réalité » où le « de » qui sépare et relie l’IA à Angèle exprime cette prétérition du latent culturel. Tout existe avant d’exister.

Il y a dans cette étrange anticipation contrefactuelle, un nouveau pacte complice avec le public. C’est Kaaris s’amusant de sa propre IA et ce n’est nullement là la propriété d’un possible remplacement, c’est la distance à soi, une étrangeté bien connue de la modernité, décalage de notre appareillage. Grâce à l’accumulation du passé par les supports matériels de mémoires tertiaires, nous produisons quelque chose qui n’avait jamais eu lieu, mais qui ressemble étrangement à tout ce qui pourrait avoir lieu : Kaaris chantant l’Inspecteur Gadget ou un animé de Disney. Ce possible a déjà sa forme de réalité, mais toute l’intelligence culturelle de notre époque est dans cet amusement partagé entre les chanteur.se.s et le public, dans cette nouvelle répétition où nous interprétons ce possible qui a déjà eu lieu.

Si notre culture, et son partage, étaient déterminés par les mémoires tertiaires, fruit de la période industrielle, nous entrons assurément dans une nouvelle époque avec les mémoires quaternaires où le contrat esthétique pourrait être celui de l’aliénation : nous reproduisons des machines qui nous reproduisent. L’espace latent devient un espace des possibles qui contient le passé, mais aussi, sans doute, une partie de l’avenir et de l’incalculable. Car on pourrait bien, par exemple, faire une photographie avec un appareil quelconque et l’envoyer dans une IA pour vérifier qu’elle existe déjà et la trouver, la retrouver. Il ne s’agit plus seulement du numérique qui rendait discret, sous forme de 0 et 1, des variations analogiques, qui les découpaient, il s’agit à présent de possibilités statistiques, qui n’existent pas (encore). Cette latence devrait bien sûr être liée au complotisme, aux fausses nouvelles, à cette étrange démocratisation expressive de l’opinion où tout le pensable semble devoir être pensé par quelqu’un et où chacun semble ne penser que pour réagir à ce qu’il croit que l’autre pense dans une anticipation bayésienne sans fond.

Nous avons encore à nous orienter dans cette culture de l’espace latent et dans l’émotion paradoxale qui nous saisit peut-être lorsque nous écoutons, et réécoutons, la voix d’Angèle, puis que nous revenons à la voix de l’IA, que nous allons et venons entre les deux, ne sachant décider de notre émotion et du monde qui ainsi nous traverse. C’est un nouveau réalisme et une nouvelle historicité sans doute, de nouvelles structures qui émergent.

La boucle est bouclée

Face aux discours omniprésents et étouffants du remplacement, Angèle et son public jouent une autre partie. Les sentiments y sont mêlés. Il y a sans doute un peu de peur, d’étonnement, mais surtout un amusement dans le jeu infini des simulacres et des ressemblances, autre nom pour désigner la culture, ce que n’auront jamais compris les pasteurs technocritiques et les prêtres humanistes. L’IA n’y est pas pensée d’avance, comme s’il suffisait de la réfléchir correctement pour fixer la manière dont il faut la réformer, l’encadrer, la mettre dans un tuyau, avec une entrée et une sortie, des embranchements, toute une logistique qui est finalement un logos et qui aura toujours un coup de retard. L’IA y est expérimentée, nous l’aliénons et elle nous aliène. Dans ce cas, elle a bien appris à chanter comme Angèle et cette dernière lui a en quelque sorte répondu en la reprenant. Nous avons été les secrets témoins de cet écho sismique.

Après l’apogée de l’accumulation hypermnésique des supports de mémoire par leur numérisation et leur enregistrement dans les centres de données, ultime étape de la reproductibilité benjaminienne, nous industrialisons avec l’IA la ressemblance elle-même par le possible. C’est sans doute la raison pour laquelle l’IA, cette question qui traverse et bouleverse bien des domaines de l’activité humaine, a été abordée principalement dans les médias et auprès du grand public par la question de l’art. Cette dernière concentre en effet symboliquement dans la modernité le propre de l’humanité, le mystère de son intériorité qui, nous le savons, fut le procès d’une construction de la subjectivité en Occident, allant jusqu’à la volonté de puissance et le nihilisme.

Dans un autre post de Tik Tok, on peut lire « La boucle est bouclée ». Ce n’est pas seulement que nous apprenons aux IA à créer des images, des textes et des sons qui nous ressemblent, c’est que nous leur ressemblons et que par rapport aux discours réactionnaires, nous ne désirons rien d’autre que d’activement nous aliéner. Nous ne croyons ni dans le fait de rendre lisible les IA par la transparence du code, ni dans l’acte de couper et nous séparer de ces flux pour regagner une imaginaire autonomie et souveraineté. Nous voulons expérimenter que ce que nous croyons être est aussi un produit de la technique et de sa reproduction paradoxale. Nous en sommes la reprise. L’IA, quant à elle, métabolisant toute l’histoire de nos supports de mémoire, est en train de constituer une nouvelle mémoire où le passé et le futur ne sont plus chronologiques, mais semblent se répondre l’un à l’autre en échangeant leur rôle.


Gregory Chatonsky

Artiste, Enseignant au sein de l'EUR Artec