Bernhard Rieder : « Les grands médias font de l’IA un instrument un peu magique »
L’intelligence artificielle semble avoir progressé à pas de géants ces derniers mois : d’abord les programmes de génération d’images comme DALL-E se sont popularisés, puis ChatGPT a illustré un modèle capable d’entrer en conversation avec une intelligence humaine, de produire du texte sur commande avec des performances jamais vues auparavant. Pour mieux comprendre les jeux de pouvoir dont ces innovations procèdent, pour ne pas se laisser prendre au discours mystificateur de l’intelligence artificielle, il faut en revenir à la matérialité des systèmes mêmes, à la description fine de ce qu’ils sont en tant que tels, plutôt que d’alimenter des paniques morales.
C’est un travail que mène depuis de nombreuses années le spécialiste en Mediastudies Bernhard Rieder, professeur associé à l’Université d’Amsterdam et collaborateur au sein du Digital Methods Initiative, où il participe à développer de nombreux projets de logiciels dédiés à la visualisation et à la compréhension des infrastructures numériques. Ses recherches portent sur le rôle que jouent les algorithmes dans la production de connaissances et de culture. En 2018, il rejoint l’Observatoire de la Commission européenne sur l’économie des plateformes. Sa propre enquête sur les fondations historiques des techniques de traitement de l’information, Engines of Order, a été publiée en 2020 à l’Amsterdam University Press. BT
Comment qualifieriez-vous l’apport de la sociologie des sciences et des techniques, et notamment des concepts liés à la matérialité comme celui « d’assemblage » par exemple, pour comprendre les objets socio-techniques si particuliers que sont nos objets numériques ?
Je ne me spécialise pas vraiment en sociologie des sciences et des techniques, mais plutôt en Mediastudies, un terme qui n’existe pas tout à fait en France, mais que peuvent recouvrir par exemple les sciences de l’information et la communication. Cela dit, il existe beaucoup de ponts, d’échanges et de dialogues entre sociologie des sciences et des techniques et Mediastudies, notamment pour ce qui touche à la matérialité.
Personnellement, je suis intéressé par la matérialité de tout ce qui est numérique : un logiciel a sa propre matérialité à travers des aspects comme le stockage, à travers son interface qui, pour nous, constitue quelque chose qui résiste, qui permet certaines choses, et qui n’en permet pas d’autres. Les modèles d’intelligence artificielle aussi ont certaines propriétés matérielles : certaines techniques sont plus rapides que d’autres, plus performantes, plus appropriées dans un domaine et moins dans un autre. Dans le contexte du numérique, l’attention à la matérialité constitue une tentative pour étudier comment les techniques et les processus sociaux qui s’y adossent sont orientés, gouvernés, influencées par le fonctionnement des techniques et la matérialité qui les soutient. Cela permet d’analyser la place de ces techniques dans nos quotidiens, dans les relations de pouvoir, dans les pratiques en général, sans dissoudre le côté technique dans une sorte de constructivisme social. Tout ne se résume pas au fonctionnement technique des choses, certes, mais ce fonctionnement technique est important ; on ne peut pas l’ignorer.
S’agissant des méthodes, votre travail auprès du Digital Methods Initiative consiste à produire des outils, et notamment des outils cartographiques pour essayer de saisir des aspects de ces objets numériques, et surtout de cartographier leur activité, sans quoi elle nous demeure relativement opaque. Pourquoi l’attribut cartographique, visuel, dans ces méthodes, se trouve-t-il autant en affinité avec l’épistémologie matérialiste ?
C’est en effet assez important pour la conceptualisation que nous nous faisons de notre propre travail et de nos outils. En sciences sociales ou en sciences humaines se pose la question de ce qu’on a à ajouter par rapport aux outils et aux méthodes qui viennent, par exemple de l’informatique ou de la linguistique, et d’autres disciplines.
L’élément le plus important, finalement, c’est de regarder ces contenus qui circulent et qui sont souvent l’objet des études. Nos outils extraient quelque chose, pas seulement des messages, mais aussi tout ce qui les entoure : par exemple, le nombre de likes que ces messages suscitent, leur audience, permettant de relier ces messages à différents comptes sur les plateformes… Dès lors, ces contenus dépassent le statut de simple chaîne de caractères, parce que, fondamentalement, ces contenus sont toujours en réseau, pris en lui, et crédités déjà d’une certaine existence technique qui déborde la plupart du temps la simple information textuelle, parce qu’elle circule d’une certaine manière. La technicité de ces contenus relie leur usage, leur réception, à leur visibilité : plus il y a d’internautes qui se confrontent à un message, plus la visibilité de ce message augmente encore, et ainsi de suite… Ces contenus se lient aussi à d’autres contenus, par exemple via l’outil du hashtag ; ce qu’on étudie ne se limite donc pas à une construction linguistique, parfois aussi parce que les contenus sont cliquables, et l’internaute qui clique s’insère alors dans un flux de contenu. Les entités numériques sur lesquelles nous travaillons sont digital natives, sous-entendant qu’il n’y a pas eu d’opération de numérisation pour les produire – une formation graphique comme un tweet n’est pas écrite à la main puis numérisée : elle est nativement numérique, avec sa vie numérique propre.
Ces caractéristiques informatiques, celles des formes de navigation ou des liaison entre des contenus, par les recommandations, par le ranking algorithmique, pointent vers une certaine matérialité. Un tweet ne peut pas être plus long que 280 caractères : c’est une limite matérielle qui influence les modes de communication, qui se saisissent à leur tour de cette matérialité – on pense ici au contournement possible de la limite de caractères au moyen du thread, qui ne se résume pas simplement à « un texte plus long qu’un tweet » mais qui a sa propre architecture interne.
Vous avez également travaillé avec Bruno Latour sur le projet EMAPS, un projet cartographique justement. Latour nous a quittés il y a quelques semaines, et il est vrai que son propre travail sur les technologies numériques, qui l’a conduit notamment à fonder le médialab de Sciences Po, n’est pas si connu, notamment éclipsé par sa première œuvre en sociologie des sciences, et par la dernière période de son travail autour de Gaïa. Comment votre collaboration avec Latour vous permet-elle de comprendre le rôle particulier que jouait le numérique dans la pensée de ce grand intellectuel ?
Il existe beaucoup de liaisons possibles entre les études du numérique que nous prônons ici à Amsterdam et le projet latourien. Certaines se sont incarnées dans des collaborations directes, et d’autres se manifestent plus sous formes d’influences.
Il me semble que ce qui aura fasciné Latour, dans l’étude du numérique et notamment dans les méthodes pour l’étudier, des méthodes cartographiques souvent très visuelles, c’est qu’il y voyait une sorte de manifestation assez concrète de cette idée que le social en tant que tel n’existe pas, mais que le social, c’est quelque chose qui est construit, qui se manifeste à travers des réseaux qui incluent une série d’éléments qui peuvent être des personnes, mais aussi des contenus, des idées et ainsi de suite. Finalement, dans le numérique, quand on parle par exemple des médias sociaux, ou d’autres contextes, on a la possibilité de cartographier ces réseaux hétérogènes plus facilement et de manière plus automatique, de les parcourir, de les trier, de les ordonner, de les reconstruire… Cette perspective théorique, qui s’applique effectivement aussi dans un contexte offline, se trouve exacerbée dans le monde numérique, ce que Latour avait bien vu.
Il y avait aussi un vrai désir de la sociologie des sciences latourienne à se faire force de proposition au point de vue méthodologique. L’avantage de ces méthodes numériques est qu’elles permettent une démarche inductive, qui fait l’économie de concepts établis d’avance, de définitions qu’on vient plaquer sur les données : les concepts, les points d’intérêts émergent des contenus eux-mêmes.
Ceci suggère un troisième aspect pour expliquer l’intérêt de Bruno Latour pour l’étude du numérique, qui est une certaine préférence épistémologique pour l’observation du monde tel qu’il est. Il ne s’agit pas, ici, de prôner un grand positivisme, mais plutôt de prendre acte que le monde change, un point qui est également cher à la philosophie et à la sociologie des sciences et des techniques. Puisque le monde change, nos méthodes pour le comprendre doivent suivre, une tâche qu’on se facilite en abordant le monde tel qu’il est, au plus près du terrain, de ses acteurs. Cela fait directement penser à une des initiatives de Latour, le master en arts politiques à Sciences Po, qui enseigne ce souci du terrain et de ses acteurs propres. Faire des cartes et d’autres types de visualisation rend visible les entités actives dans un terrain donné, leurs pratiques, les controverses dans lesquelles ces entités sont impliquées.
Pour revenir à cette idée de matérialité, on pourrait travailler un exemple précis : comment peut-on décrire Google comme un système technique dans sa matérialité, qu’est-ce que cette approche apporte dans l’étude d’une entité numérique aussi complexe ?
Il s’agit là de prendre la matérialité au sérieux et de l’utiliser comme un point de départ de l’analyse concrète d’une entreprise, elle-même très active dans la production de ces matérialités numériques. L’activité de Google/Alphabet recouvre un grand nombre de domaines. Cette approche se singularise par l’idée de prendre ces matérialités en réseau et de penser que, finalement, ce à quoi sert l’interface de Google, les recherches sur le web, est lié de différentes manières à d’autres choses, dans un centre de données, dans des processeurs… Il y a là une approche possible, sans l’obligation de balayer toutes les autres qui insistent davantage sur les business models ou sur d’autres types d’analyse de de pouvoir.
Un exemple qui, personnellement, me fascine est celui du Transformer : une architecture développée par Google, capable de prendre en charge le travail des modèles de langage ou de génération d’images, très gourmand en puissance de calcul, que l’on retrouve par exemple derrière ChatGPT, ou derrière DALL-E. Le Transformer, par rapport à d’autres techniques, utilise un concept informatique qui s’appelle Attention, qui qualifie une manière d’encoder les informations qui se trouvent dans les données d’entraînement de manière un peu différente. Transformer vise à entraîner en parallèle et simultanément des réseaux de neurones de manière quasi illimitée, décuplant la puissance de calcul en abolissant la frontière de la vitesse d’exécution de certaines tâches, puisqu’elles peuvent être conduites en parallèle. Dès lors, il devient possible de prendre en compte beaucoup plus de données, et de créer des réseaux de neurones moins focalisés sur une tâche spécifique. Profiter de cette innovation n’est cependant possible que pour une entreprise déjà pourvue de très grands centres de calcul, comme Google, déjà dotée de ces centres dédiés à une série d’autres choses, experte dans leur gestion et nantie de la capacité financière suffisante pour investir dans la construction de microprocesseurs dédiés à ce type d’architecture. Tout ceci exclut du marché les plus petites entreprises qui ne peuvent s’offrir cette infrastructure hautement capitalistique. Voilà les raisonnements qui m’intéressent : comment les GAFA lient entre eux leurs activités, pour créer des synergies au sein même de la pluralité de leurs métiers pour continuer leur expansion tout en cohérence ?
Un des avantages de cette façon de penser est qu’elle permet aussi de prendre en compte la matérialité d’éléments qui ne sont pas uniquement matériels et qui ont aussi une forte existence conceptuelle. Je pense ici notamment à un article récent où vous rejouez cette cette phrase très connue de Lawrence Lessig : « Code is law ». En montrant qu’on peut approcher le code et la loi par la matérialité, on peut se défaire d’un certain constructivisme social, qui projette des fausses images de ce que seraient le code ou la loi, et notamment qui invite trop à penser l’idée de loi comme une espèce d’extérieur qui s’impose à nous. Comment la matérialité nous invite, au contraire, à comprendre la loi dans ses usages, dans les assemblages de ses usages avec des dispositifs ?
Cette citation a été beaucoup utilisée. Elle demeure importante même si effectivement, elle a souvent donné lieu à des interrogations sur la nature du code plutôt que sur la nature de la loi. Lessig suggère de penser le code à l’image de la loi, mais pas nécessairement l’inverse. Pourtant, cette question est fondamentale pour comprendre les enjeux de régulation du numérique, des industries, des objets et des pratiques. Dans ce contexte, il y a de quoi repenser la loi, pour ne pas faire d’elle simplement une sorte de puissance automatique qui gouvernerait dès l’instant qu’elle est écrite. Dans la pensée du droit, la tradition dite de legal realism, assez inspirée par les travaux de Michel Foucault, redonne une certaine matérialité à l’exercice de la loi. Comment devient-elle performative ? Au-delà de la question de la jurisprudence, il existe tout un tas de dispositifs administratifs, financiers, qui prennent en charge cette performativité, qui dégagent des marges d’interprétation, qui régulent par exemple la capacité de l’État à intervenir de manière concrète.
Penser la loi ainsi, dans le cadre des environnements numériques, nous amène à insister sur l’effectivité, sur la façon dont se font les choses : comment implémenter des valeurs dans l’usage de l’IA, comment exclure un certain nombre de pratiques, comment mettre en place des exigences de transparence… ? Pour le comprendre, il ne faut pas se limiter à penser à la loi comme concorde, mais plutôt poser la question de la matérialité spécifique des technologies qui implique une matérialisation particulière des lois. Prenons l’exemple du Digital Service Act, ce projet de loi qui spécifie un certain nombre d’obligations, assez conséquentes, auprès des très grandes plateformes, celles qui ont au moins deux millions d’utilisateurs dans l’espace européen. Comment pourrait-on réaliser ces exigences, comme par exemple l’obligation pour les plateformes d’étudier le potentiel d’infractions des droits fondamentaux des citoyens européens dans leur propre système ? Comment le vérifier ?
Toute une série d’idées sont maintenant discutées. Une des voies qui va certainement prendre une place importante est celle de la nomination de coordinateurs dans chaque pays et au niveau européen, dotés de certaines compétences. Quel devra être le profil d’un tel coordinateur ? Programmeur, data scientist, mathématicien ? Cette exigence de concrétisation est extrêmement importante parce que les algorithmes que ces chercheurs contrôlent muent constamment, ils ne sont pas ces objets figées justiciables d’une étude exhaustive qui pourrait conclure une fois pour toutes. Il faut comprendre cette matérialité de la loi pour penser efficacement son interface avec la matérialité des technologies qu’on prétend d’étudier, et in fine, gouverner.
On voit d’ailleurs que le personnel dédié à ces coordinations devra faire preuve de beaucoup d’ouverture. Pour le moment, on a du mal à éviter cette confrontation des cultures entre les spécialistes de la loi et ceux de l’informatique : les uns ont une appréciation réaliste du juste et de l’injuste, qui admet des marges d’interprétation, les autres manipulent des applications fondées sur la justesse mathématique, l’exactitude, qui ne tolère pas vraiment le débat. Comment éviter que cela crée des frictions ?
C’est un très grand problème. Il va falloir faire les bons choix et cela devra nécessiter des ressources financières assez importantes. On ne peut pas penser recruter un personnel compétent en apprentissage machine pour les salaires de la fonction publique. La stratégie inverse, faire assumer ce coût aux plateformes, souffre de nombreuses limites. Il faut du réalisme aussi derrière l’idée que les plateformes devront faire une grande partie du travail… Créer une culture de la collaboration transdisciplinaire nécessite un travail dans la durée. C’est ce que nous sommes par exemple parvenus à réaliser ici à Amsterdam : nous avons un pied dans le code, dans la programmation d’outils ; un autre dans les sciences humaines, les concepts, les méthodes. Pour que cela fonctionne, il faut vraiment qu’une sorte d’expertise se crée au fur et à mesure que les personnes forment des équipes jouissant d’une certaine stabilité. C’est un défi pour les plateformes et l’Union européenne.
Et puis des problèmes cruciaux demeurent, comme l’accès aux données. Comment cet accès sera-t-il dégagé ? D’intenses débats sont à prévoir quant à la méthode privilégiée : organisera-t-on des enquêtes, des types d’audit très ponctuel, ou au contraire une observation plus continue ? Je demeure plutôt optimiste car il me semble que la base légale est déjà là, mais les chantiers à venir sont importants.
Un de vos articles, qui étudie l’outil de Google Perspective API – un algorithme de détection automatique de contenu toxique, violent, haineux – traite d’une question importante : est-ce que l’intelligence artificielle va remplacer l’intelligence humaine ? Comment parvenez-vous à montrer cette forme de destruction créatrice où l’on comprend que l’IA, plutôt que de remplacer les hommes, crée de nouvelles associations et reconfigure le travail humain ?
L’article démarre par un travail empirique, visant à comprendre l’infrastructure de l’algorithme, étant donné que la branche de Google dédiée à Perspective API a quand même des pratiques plus ouvertes, plus transparentes que celles des autres outils de modération connus, et qui existent sur YouTube ou sur Facebook. Il résulte de notre étude que cette architecture a quelque chose d’un peu bidon… Sans exagérer non plus, disons que la réalité tranche avec cette représentation prévalente de l’IA dans les médias grand public, qui en fait un instrument assez magique, très peu dépendant du travail humain, quelque chose qui a une existence mathématique insondable. Une vision plus nuancée, qui traite des biais algorithmiques par exemple, commence néanmoins à s’imposer, et le vocabulaire autour des données d’entraînement, par exemple, se fait de mieux en mieux connaître.
Reste que le travail humain, que nous avons contribué à rendre visible dans l’étude de Perspective API, reste relativement invisible dans les représentations. Il est pourtant très présent ! L’équipe de Google a travaillé avec le New York Times, avec Le Monde, avec El País en Espagne… Ces médias ont partagé des commentaires de lecteurs adossés à leurs articles et leurs évaluations par des modérateurs professionnels : tout ce dont a besoin un algorithme de détection de discours toxiques. On peut, à partir de ces inputs, entraîner un classificateur censé modéliser l’essence de l’acte de modération.
Pour entraîner les modèles les plus utilisés dans Perspective API, les équipes de Google se sont rapprochées de travailleurs du clic, des dizaines de milliers de personnes dont on ne sait qui ils ou elles sont, ni où ils ou elles sont ; seulement qu’ils ou elles travaillent pour pas cher. Des commentaires ont donc été soumis à ces travailleurs du clic accompagnés d’une grille d’évaluation pour juger de la toxicité des commentaires.
Dès lors, tellement de questions se posent. Bien sûr, on peut parler des différents modes de transformation utilisés, des types de réseaux de neurones, des architectures, et d’autres points strictement mathématiques et techniques… Mais finalement, la question la plus importante touche à l’élaboration des données et de la grille d’évaluation. Ensuite, l’utilisation concrète de la modération, le cadre dans lequel elle s’exprime, doit aussi nous interroger dans sa matérialité. Il n’est pas équivalent de modérer un contenu en prévenant l’internaute, en amont de la publication de son commentaire, de la toxicité de son texte – et de l’avertir : « Êtes-vous certain ou certaine de publier ce texte ? » – ou de filtrer le commentaire après qu’il a été posté sans notification préalable. Cette décision de l’implémentation concrète de la modération est bien prise en charge par des humains. Les étapes les plus importantes pour le fonctionnement de Perspective API se trouvent donc en amont et en aval du traitement algorithmique, ce qui va à l’encontre de l’idée d’une sublimation par l’intelligence artificielle. La machinerie mathématique, même, se révèle relativement classique si on considère les modèles et les méthodes employées, et à supposer que la présentation qui en est faite soit fidèle à ce qui se passe dans la boîte noire de l’algorithme.
L’actualité la plus brûlante en matière d’intelligence artificielle touche aux dernières innovations dans le domaine des réseaux de neurones : à ces modèles et programmes capables de générer des images, du texte, avec un effet saisissant. Nous avons parlé ci-dessus des frictions produites lorsque l’on confronte des valeurs telles que le juste ou le bien à l’exactitude mathématique. Qu’en est-il lorsque l’intelligence artificielle se donne des prétentions esthétiques ?
Parmi toutes les questions possibles sur ce sujet, le prompting m’intéresse particulièrement : ce nom qualifie la phase pendant laquelle on soumet des mots-clés à l’IA que l’on utilise, pour voir apparaître un résultat, qui a une existence socio-technique assez complexe. Il existe des communautés sur Internet, où l’on se partage des manières de faire, des listes de mots à écrire dans les applications de Midjourney ou d’OpenAI, qui utilisent des suites de mots très particuliers, parfois contre-intuitifs, et qui donnent des résultats très intéressants. Tout un pan d’une nouvelle créativité s’ouvre ici.
L’entrée qui me semble la plus stimulante, parmi toutes les questions que suggère la présence de l’IA dans l’art, touche aux droits d’auteurs. Des procès se préparent déjà, témoignant du caractère brûlant de cette question : quels sont les recours d’un artiste dont les créations font partie des données d’entrainement d’un modèle très important ? Que peut objecter celui dont une IA est capable de copier le style ? Peut-il être rétribué pour l’inspiration qu’il a fournie au modèle ? Quels sont les circuits de rémunération qu’il est possible d’inventer ?
Encore une fois, ce seront certainement les très grandes entreprises qui se rendront capables de relever les défis posés par ces débats fascinants, de payer pour les bases de données d’entraînement, de s’offrir des licences d’exploitations… Il y a un autre débat posé par tout cela, celui de la création a proprement parler, qui relève d’une espèce de génie, plus « transcendant » et qui produit authentiquement de la nouveauté, à l’inverse d’une forme plus décorative, illustrative, de création artistique. Le marché de l’art va certainement se positionner comme arbitre des modes de créativité, de même que les artistes, dont certains gagnent aussi leur vie avec des productions artistiques dérivées, ne relevant pas seulement des « Beaux Arts », pour le dire vite. Ce sont ces problématiques qui m’intéressent bien plus que la distinction entre l’humain et l’artificiel, bien vite réduite dans ce poncif : est-ce qu’une machine peut être créative ? Au contraire, mes interrogations rejoignent notre conversation, plus haut, sur la loi et sa performativité : Qu’est ce qui va finir dans un musée? Quel objet sera bien vendu comme œuvre d’art ?
Les négociations à venir vont certainement s’avérer complexes. Une des lignes qu’il me semble essentiel de ne pas lâcher est celle des exigences esthétiques remplies par l’objet. Je pense à la production musicale assistée par l’intelligence artificielle, qui a déjà donné d’excellents résultats. Le travail de Holly Herndon procède d’une véritable intention esthétique, complètement indépendante de la question de la responsabilité de l’IA dans la création. L’artiste crée une sonorité très particulière, qui incline à penser que les œuvres d’art qui s’appuieront de différentes manières sur l’intelligence artificielle pourront produire une expérience esthétique qui ne se résume pas à une création par une machine. Holly Herndon a enregistré les voix de plusieurs centaines personnes et elle a entraîné un système qui, depuis sa voix ou d’autres utilisées comme input, rejoue le chant de cette voix mais comme chanté par la chorale des centaines de voix initiales superposées – et cela en temps réel !
Cette production artistique est à mettre en regard avec d’autres qui n’auront pas cette exigence, mais qui feront signe vers leur utilité propre : il existe déjà de nombreux blogs qui utilisent, de manière décorative, des illustrations générées par l’IA.