Comment se prémunir des IA malveillantes ?
La déferlante d’annonces quotidiennes sur les dernières avancées techniques réalisées par les géants de l’IA ou encore la mise à disposition du grand public de modèles génératifs aussi versatiles que puissants esquisse les contours de profondes transformations dans des domaines aussi divers que l’éducation, le travail, la santé, le divertissement ou encore le commerce.
Le phénomène historique de coévolution entre la délinquance et la technologie implique par conséquent que l’IA va inévitablement représenter une technologie de rupture pour les acteurs malveillants, qui y trouveront de précieuses ressources afin d’amplifier les profits criminels générés par la cybercriminalité. Le milliardaire américain Warren Buffett s’est d’ailleurs inquiété de cette évolution dans son plus récent rapport aux actionnaires de la société d’investissement Berkshire Hathaway, affirmant que l’escroquerie propulsée par l’IA pourrait devenir l’industrie la plus lucrative de tous les temps.
Si les problèmes éthiques soulevés par les biais inhérents à l’IA et sa propension à reproduire les discriminations sociales ont jusqu’à présent capté l’attention, les enjeux de sécurité apparaissent avec plus de netteté, venant tempérer les immenses gains attendus. Comme pour bien d’autres technologies, les bénéfices promis ne se matérialiseront que si les risques afférents peuvent être efficacement contrôlés. L’équilibre instable que ce type de tension génère est familier de secteurs comme le transport aérien, l’industrie nucléaire ou les entreprises pharmaceutiques.
Il existe toutefois encore une grande confusion dans les discours sur les risques découlant des usages malveillants de l’IA, qui oscillent entre l’insouciance lénifiante des géants du secteur, accaparés par la capture de parts de marché leur garantissant une rentabilité encore élusive, d’une part, et les prédictions apocalyptiques d’experts qui agitent le spectre d’une extinction de l’espèce humaine par une superintelligence artificielle rebelle d’ici la fin du siècle, d’autre part.
Dans ce contexte, il s’avère donc indispensable d’initier une réflexion plus rigoureuse sur les risques criminels liés aux diverses formes d’exploitations abusives de l’IA et les préjudices qu’elles causeront aux individus et à la société. Cela permettra de dépasser les opinions basées sur de simples anecdotes, aussi édifiantes soient-elles, et de développer ainsi une réflexion et des pistes de réponse systémiques qui dépassent les seules considérations techniques et sont également capables de prendre en compte les risques « orphelins » touchant des populations plus vulnérables mais moins médiatiques.
La cybercriminalité représente en effet un véritable écosystème socio-technique, composé d’entités organisées en trois communautés : une communauté industrielle qui tend à privilégier l’innovation au détriment de la sécurité des consommateurs, une communauté délinquante qui exploite les nombreuses failles ouvertes par les négligences de la première, et une communauté de la sécurité diversifiée qui essaye de s’adapter aux innovations criminelles. Les interactions entre ces entités et ces communautés sont régies par des relations de compétition, de prédation et de coopération qui forment des configurations variées et en perpétuelle évolution[1]. L’adoption de ce cadre d’analyse nous permet de distinguer quatre configurations principales où l’usage malveillant des systèmes d’IA produit des risques et des préjudices spécifiques qui exigent des mesures de prévention et d’atténuation différenciées.
Quatre configurations d’IA malveillantes : une gradation des risques et des préjudices
À ce stade préliminaire de nos connaissances, la typologie la plus utile est celle qui utilise comme critères principaux les victimes ciblées par les usages malveillants de l’IA et l’échelle des dommages causés. D’autres efforts de recensement et de classification des risques de sécurité ont préféré s’attacher à leur nature tangible ou intangible, ainsi qu’à leur manifestation immédiate ou future[2],mais se concentrer sur les différents niveaux de victimisation permet de mieux réfléchir aux interventions préventives requises. De manière ascendante, on constate que les risques et dommages causés par des utilisations malveillantes de systèmes d’IA sont ressentis à l’échelle individuelle, organisationnelle, communautaire, et enfin systémique.
En premier lieu, les outils d’IA générative sont de plus en plus fréquemment utilisés par les fraudeurs contre des victimes individuelles afin de les manipuler grâce à des hypertrucages qui permettent de cloner la voix ou l’image d’un proche ou d’une célébrité : des grands-parents reçoivent des appels de détresse de leurs petits-enfants qui leur demandent de transférer des sommes conséquentes pour les faire sortir de prison ou les libérer d’un kidnapping imaginaire, des utilisateurs d’un site de rencontre en ligne interagissent avec des avatars au physique séduisant qui les persuadent d’investir leurs économies dans des placements douteux, ou encore des investisseurs téméraires sont dirigés vers des plateformes aux rendements colossaux après avoir visionné sur les médias sociaux des vidéos de personnalités (Elon Musk, le Premier ministre Trudeau au Canada, le Gouverneur de la banque centrale de Roumanie, etc.) qui font à leur insu l’apologie de ces placements frauduleux.
La production et la diffusion d’images pornographiques non-consensuelles à l’aide d’applications d’hypertrucage représente une autre source de victimisation individuelle. Les cas impliquant des vedettes populaires comme Taylor Swift ont été abondamment médiatisés ces derniers mois, mais ce calvaire touche aussi des millions de femmes et d’adolescentes qui sont ainsi harcelées et humiliées publiquement. Dans un récent sondage mené auprès de 1 636 Français adultes en 2023, un pour cent de l’échantillon déclare que des images ou des vidéos de pornographie non-consensuelle les représentant ont été produites à l’aide d’outils d’IA, et 0,8 % des répondants indiquent que des hypertrucages pornographiques non-consensuels ont été diffusés ou partagés via des supports numériques[3].
Bien que ce chiffre puisse sembler minime, il représente néanmoins près de 420 000 victimes annuelles qui sont par ailleurs des femmes dans 99 % des cas, ce qui soulève la profonde inégalité de genre face à ce fléau. La production de ces images non-consensuelles est grandement facilitée par la disponibilité de centaines d’applications téléchargeables sur les « app stores » des géants du numérique qui permettent de plaquer un visage sur un corps nu en quelques clics et sans aucune compétence technique. Cela explique donc, toujours selon le sondage mentionné précédemment, que 0,6 % de l’échantillon pouvait déclarer avoir produit et partagé de la pornographie non-consensuelle en France en 2023, ce qui représente plus de 310 000 personnes.
Les organisations publiques et privées constituent le deuxième groupe de cibles privilégiées des acteurs malveillants de l’IA : les hypertrucages sont d’abord utilisés afin de renforcer la crédibilité des arnaques au « faux président », où les employés sont manipulés par des fraudeurs qui se font passer pour des membres de la haute direction afin d’initier des ordres de virement sur des comptes étrangers qu’ils contrôlent. Un cas particulièrement médiatisé est celui de cette comptable hong-kongaise qui a transféré 26 millions de dollars US à des escrocs, après avoir participé à une réunion Zoom où elle fut convaincue de recevoir ces instructions directement du Directeur financier de l’entreprise (basé au Royaume-Uni) et d’une demi-douzaine d’autres collègues, dont les visages et les voix avaient été entièrement recréés par des outils d’IA à partir de vidéos disponibles sur internet.
L’IA risque également de fragiliser les processus d’authentification des employés et des clients au sein des organisations, avec la diffusion rapide d’outils qui créent des copies très réalistes de faux papiers d’identité ou des filtres vidéo permettant d’échanger des visages. L’IA va probablement relever artificiellement les capacités techniques des pirates informatiques en les aidant à programmer des logiciels malveillants inédits que les outils de sécurité classiques auront de la difficulté à détecter, parce que jamais observés auparavant, ou mettant à la portée de tout un chacun la création de campagnes de phishing sophistiquées ou de rançongiciels performants. Depuis l’arrivée des outils d’IA générative, le volume des courriels de phishing a d’ailleurs augmenté de 1 265 %. Enfin, les organisations qui utilisent des systèmes d’IA vont devoir se protéger contre des attaquants qui vont tenter d’empoisonner ces outils afin d’en extraire des informations sensibles comme des données personnelles ou de la propriété intellectuelle (brevets, stratégies d’affaires, etc.).
En cette année où la planète entière semble se rendre aux urnes, le troisième niveau de risques découle des dommages que la désinformation fait peser sur la cohésion sociale des communautés. La rapidité avec laquelle les outils d’IA générative permettent de créer de toutes pièces des contenus crédibles, choquant et captivant en font un puissant engin de persuasion massive, nourrissant la défiance, le doute et l’apathie au sein des sociétés ciblées. Si le potentiel des vidéos d’hypertrucage est connu depuis quelques années, sans qu’on ait constaté un large usage par les acteurs de la désinformation, l’effondrement des coûts de production provoqué par la prolifération des outils d’IA grand public performants, ainsi que des modèles disponibles en open source, est en voie de démocratiser cette pratique.
L’IA ne sert pas uniquement à produire des vidéos totalement fictives : elle peut aussi personnaliser les contenus en fonction des destinataires et automatiser un engagement plus profond avec ces derniers, ou générer rapidement des textes et des commentaires à des posts de médias sociaux dans plusieurs langues, rendant les activités de désinformation beaucoup plus persuasives et difficiles à détecter. L’entreprise OpenAI a d’ailleurs révélé en mai 2024 qu’elle avait détecté et perturbé des campagnes d’influences menées par des intérêts chinois, russes, nord-coréens et israéliens à l’aide de son outil ChatGPT. Cette industrialisation de la production de fausses nouvelles facilitée par l’IA fait en sorte qu’en juin 2024, on recensait aux États Unis plus de sites d’informations locales frauduleux que légitimes.
Le quatrième et ultime niveau de risque malveillant est de nature systémique. Il englobe toutes les configurations encore très prospectives dans lesquelles des systèmes d’IA auraient atteint un tel niveau d’autonomie et de conscience (la fameuse intelligence artificielle générale), qu’ils seraient en mesure de prendre des décisions et d’initier des actions qui pourraient aller à l’encontre des intérêts de l’humanité et menacer la survie même de notre espèce. Cela pourrait par exemple prendre la forme d’une déstabilisation catastrophique des marchés financiers, de la destruction d’infrastructures critiques de distribution d’électricité ou d’eau potable, ou encore de la confection d’agents pathogènes dévastateurs. Une étude récente démontrant que certains systèmes d’IA peuvent recourir à la tromperie pour atteindre leurs objectifs sans qu’on leur ait explicitement demandé d’utiliser cette stratégie contribue aux craintes d’une perte de contrôle sur cette technologie[4].
Bien que la majorité des experts s’accorde à penser que ces hypothèses restent fort improbables, certaines voix influentes, comme celle de l’un des parrains de l’apprentissage profond, Yoshua Bengio, se font beaucoup plus alarmistes, appelant même à un moratoire sur le développement d’outils d’IA toujours plus puissants[5]. Dans une étude menée en 2023 auprès d’experts de l’IA, ceux-ci estiment que les probabilités d’une extinction complète de l’humanité provoquée d’ici 2 100 par l’IA sont de 3 %, et que celles d’une catastrophe causant la mort de 10 % des humains sont de 12 %. Cependant, un groupe de super-prévisionnistes (superforecasters) invités à considérer les mêmes risques s’est avéré beaucoup moins pessimiste, avec des probabilités de 0,38 % et 2,13 % respectivement[6]. Une des explications de cette variance est que les experts tendent à surestimer les risques auxquels ils consacrent leur vie professionnelle.
Répondre de manière rationnelle plutôt qu’émotionnelle
Cet emballement pour des risques techniques relativement improbables s’accompagne d’une apparente indifférence pour des utilisations malveillantes déjà bien réelles susceptibles de connaître une croissance exponentielle au cours des prochaines années. La typologie présentée plus haut permet alors de recentrer notre attention sur les besoins actuels plutôt que sur les chimères futures, en s’intéressant de manière plus approfondie aux configurations sociotechniques qui sont affectées par ces risques. Il en découle trois implications pratiques en termes de réponses institutionnelles permettant de préparer la société à cette pandémie imminente d’IA malveillantes.
En premier lieu, pour mieux prendre en compte la diversité des acteurs qui déploient des IA malveillantes, de leurs motivations et de leurs niveaux d’expertise, ainsi que des types de victimes et de la nature des dommages subis, une cartographie et une modélisation plus systématique des risques s’avèrent indispensables. Elles permettront d’identifier pour chaque configuration d’usage malveillant les stratégies de réponse les mieux adaptées, les services publics les mieux placés pour piloter ces dernières, les intermédiaires du secteur privé les mieux placés pour les soutenir, et les indicateurs les plus fiables pour évaluer l’efficacité des mesures qui auront été mises en œuvre. Des initiatives portant sur le développement de systèmes d’IA sécurisés ou l’intégrité du débat démocratique ont bien vu le jour, mais elles restent encore contraintes par des logiques sectorielles et ne permettent pas de forger une vue d’ensemble du problème.
Par ailleurs, on dépend encore de récits médiatiques très fragmentés et anecdotiques de ces risques émergents, qui favorisent les interprétations sensationnalistes et anxiogènes au détriment de méthodologies plus rigoureuses ancrées dans la tradition scientifique. On pourrait – et on devrait – faire considérablement plus, en créant des cellules de veille ou des observatoires faisant travailler ensemble des analystes gouvernementaux, des représentants de l’industrie et des chercheurs issus aussi bien des disciplines techniques que des sciences sociales et des humanités. Ces assemblages d’expertise s’appuieraient sur des sources de données variées permettant de suivre l’évolution de ces risques et mobiliseraient des outils de prospective tout aussi diversifiés tels que le Red Teaming, le design spéculatif (design fiction), ou la prévision de la menace (threatcasting) pour imaginer les réponses appropriées.
Ensuite, ces connaissances plus fines des risques permettraient alors de proposer une architecture de régulation plus agile et échelonnée reposant sur des dispositifs d’intensité variable (des simples incitatifs aux mesures de coercition les plus contraignantes) et ne reposant pas exclusivement sur des outils juridiques et l’adoption de nouvelles lois, mais aussi sur l’exploitation adroite des mécanismes du marché, la diffusion de nouveaux standards techniques, ou encore la promotion de nouvelles normes de comportement[7]. Sans présumer de sa structure finale, cette architecture serait plus efficace si elle pouvait s’appuyer sur une autorité de méta-régulation de la sécurité de l’IA capable de coordonner et d’harmoniser les actions dispersées des autorités régulatrices existantes.
Enfin, au-delà des réponses relevant d’initiatives étatiques et d’une plus grande responsabilisation des géants du numérique, il sera essentiel d’assurer une diffusion aussi large que possible des connaissances sur les IA malveillantes afin de sensibiliser les décideurs politiques, les entrepreneurs et la population à l’émergence de ces nouveaux risques et à leurs particularités. Il sera déterminant de calibrer les messages afin qu’ils ne suscitent pas une frayeur contreproductive, tout en étant suffisamment concrets et accessibles pour favoriser l’adoption de mesures de protection efficaces et faciles à mettre en œuvre. Il sera aussi indispensable de mettre à la disposition du public des outils gratuits permettant de détecter les usages malveillants de l’IA et d’en atténuer les préjudices.
En d’autres termes, toute nation qui revendique un statut de chef de file dans le domaine de l’IA devra par la même occasion impérativement doter ses citoyens et ses entreprises de dispositifs de cyber-résilience adéquats face à la prolifération des risques de sécurité inhérents à cette technologie de rupture. Face à la complexité d’une telle tâche, seule une approche écosystémique sera en mesure de générer les solutions requises.
NDLR : Benoît Dupont a récemment publié La cybercriminalité : Approche écosystémique de l’espace numérique aux éditions Dunod