Numérique

OpenAI, une histoire en trois temps

Sociologue

L’écho rencontré par le lancement de ChatGPT en novembre 2022 est venu mettre en lumière la position centrale occupée par OpenAI dans le paysage contemporain de la recherche en intelligence artificielle. Pourtant l’histoire de l’organisation fondée sous l’égide d’investisseurs et d’entrepreneurs bien connus de la Silicon Valley reste pour le moins méconnue. S’y intéresser est d’autant plus nécessaire que la trajectoire singulière d’OpenAI n’en est pas moins révélatrice de tendances plus larges relatives à l’orientation scientifique, économique et idéologique des startups et grandes entreprises de l’industrie du numérique.

L’analyse conjointe d’un ensemble de sources documentaires associées à OpenAI (publications scientifiques, posts de blog, articles de presse, documentation technique, vidéos de démonstration, dépôts GitHub, profils de médias sociaux) permet de rendre compte de l’évolution progressive des efforts de recherche et d’ingénierie de l’organisation : dans les premiers temps qui suivent sa création en décembre 2015, ces efforts se concentrent principalement sur la robotique et l’apprentissage par renforcement, l’un des trois principaux paradigmes d’apprentissage automatique dit « profond » (deep learning) avec l’apprentissage supervisé et son pendant non-supervisé[1] ; par la suite, l’intervalle 2018-2021 correspond à une période charnière pour la stratégie industrielle d’OpenAI, dont le positionnement économique, scientifique et idéologique va désormais s’aligner pleinement sur l’objectif prioritaire de développement et de déploiement de grands modèles ; enfin, le tournant des années 2020 semble amorcer le début d’un troisième moment où, pour faire face aux limites et dérives de ces mêmes modèles, la structure californienne fait se rencontrer les acquis des deux périodes précédentes autour d’enjeux de sûreté et d’alignement.

publicité

Ce premier temps s’ouvre avec l’annonce, en décembre 2015, de la création de l’organisation à but non lucratif OpenAI Inc. lors de l’avant-dernier jour de l’une des principales conférences scientifiques en intelligence artificielle, Neural Information Processing Systems (NeurIPS), qui se tient à Montréal cette année là. L’officialisation de l’existence de l’organisation fait suite à plusieurs mois de discussions et de tractations intenses entre plusieurs figures importantes de la Silicon Valley, haut lieu de l’innovation technologique aux États-Unis[2].Un soir de juillet 2015, Sam Altman, alors président de l’accélérateur de startups YC Combinator, organise un dîner à l’hôtel Rosewood Sand Hill, situé à proximité de l’université de Stanford et des sièges sociaux de grandes entreprises du numérique comme Google ou Meta.

Ami de longue date de Sam Altman, le milliardaire Elon Musk y rencontre Greg Brockman, directeur technique de Stripe –  une startup de traitement de paiements en ligne passée par le programme d’incubation de YC Combinator – ainsi que plusieurs spécialistes en intelligence artificielle dont Ilya Sutskever, chercheur à Google Brain et ancien thésard de l’un des « trois pères fondateurs de l’apprentissage profond » : Geoffrey Hinton[3].

Réunis par leur crainte de l’avènement d’une Intelligence artificielle générale (Artificial general intelligence, AGI) et par leur frustration face au manque d’ouverture des géants du secteur (Google, Microsoft, Meta), Musk et Altman missionnent Brockman afin qu’il recrute une équipe de chercheurs et d’ingénieurs amenés à former le cœur de la future organisation.

Peu familier de la recherche en intelligence artificielle, Brockman se tourne alors vers Yoshua Bengio, fondateur de l’Institut québécois d’intelligence artificielle (Mila) et autre pionnier de l’apprentissage profond, pour établir une liste au sein de laquelle on retrouve les quelques membres fondateurs de l’équipe de recherche d’OpenAI, parmi lesquels : Andrej Karpathy, doctorant de l’université de Stanford qui sera par la suite recruté par Elon Musk lui-même pour devenir le responsable de la recherche en intelligence artificielle à Tesla, avant de finalement revenir au sein d’OpenAI en février 2023 ; Durk Kingma, célèbre pour avoir introduit un nouveau type de modèles génératifs, les auto-encodeurs variationnels, ainsi que l’algorithme d’optimisation Adam, dont l’article est aujourd’hui cité plus de 140 000 fois ; John Schulman, alors doctorant à l’université de Californie, prend la tête des recherches en apprentissage par renforcement au sein d’OpenAI, en proposant notamment l’algorithme d’optimisation de politique proximale utilisé pour, InstructGPT ou encore ChatGPT.

En novembre 2015, un mois avant le lancement officiel d’OpenAI, Brockman rassemble les principaux candidats à l’occasion d’une journée dans un vignoble de Napa Valley, région californienne réputée pour ses vins depuis le XIXe siècle, afin de convaincre les derniers indécis, auxquels il laisse encore trois semaines de réflexion. Plutôt que de tenter de s’aligner sur les salaires des entreprises concurrentes[4], le trio à l’origine du projet – Elon Musk, Sam Altman, et Greg Brockman – met en avant les ambitions de transparence, de partage et d’ouverture de la future organisation à but non lucratif. Le post de blog annonçant la création d’OpenAI indique ainsi : « Les chercheurs seront fortement encouragés à publier leur travail, qu’il s’agisse d’articles, de posts de blog ou de code, et nos brevets (s’il y en a) seront partagés avec le monde. Nous collaborerons librement avec d’autres par le biais de nombreuses institutions et espérons travailler avec des entreprises pour mener des recherches et déployer de nouvelles technologies ».

Les tentatives de recrutement menées par Brockman, couplées à cette prise de position ouvertement dirigée contre les acteurs dominants de la recherche en intelligence artificielle, vont amener ces derniers à réagir : d’une part, début novembre 2015, Google met sous licence Apache 2.0 sa librairie TensorFlow, auparavant réservée à une utilisation en interne, alors que Facebook annonce la mise à disposition du design de serveur nommé « Big Sur » au début du mois de décembre ; d’autre part, les chercheurs et ingénieurs approchés par Brockman vont recevoir une multitude de propositions d’embauche ou d’augmentation de salaire de la part des principaux futurs concurrents d’OpenAI. Ces propositions, dont certaines sont effectuées au cours même de la conférence NeurIPS, auraient été telles que l’annonce de la création d’OpenAI va finalement être repoussée au vendredi 11 décembre, plus tard que la date initialement prévue. Interrogé par un journaliste de Wired, le chercheur Wojciech Zaremba fait ainsi état de propositions deux à trois fois supérieures à ce que pouvait attendre un jeune doctorant en informatique de l’université de New York.

Néanmoins, cela n’empêche pas le lancement de l’organisation à but non lucratif, structurée autour de deux présidents (Elon Musk et Sam Altman), d’un directeur technique (Greg Brockman), d’un directeur de la recherche (Ilya Sutskever), d’une équipe resserrée de chercheurs et d’ingénieurs, et de quelques conseillers extérieurs (Yoshua Bengio, Peter Abbeel). En parallèle, OpenAI bénéficie d’un financement d’un milliard de dollars de la part d’un ensemble d’investisseurs et de capital-risqueurs : outre le trio déjà évoqué (Elon Musk, Sam Altman, Greg Brockman), on retrouve le cofondateur de LinkedIn (Reid Hoffman), le cofondateur de PayPal et Palantir (Peter Thiel), la cofondatrice de YC Combinator (Jessica Livingston), le laboratoire de recherche à but non lucratif créé par YC Combinator et financé à hauteur de 10 millions de dollars par Sam Altman (YC Research), ainsi que la division d’informatique en nuage d’Amazon (Amazon Web Services, AWS).

Derrière les motivations avancées lors de la création d’OpenAI, entre risques posés par l’avènement d’une intelligence artificielle dite « forte » et opacité des grandes entreprises du numérique, les deux présidents que sont Elon Musk et Sam Altman peuvent également avoir des intérêts plus directs quant à l’aboutissement de ce projet : les entreprises dirigées par le premier (Tesla et SpaceX) et celles soutenues par le second par le biais de YC Combinator, dont il est président jusqu’en 2019, seront aux premières loges pour intégrer dans leurs produits et services les systèmes d’intelligence artificielle développés au sein de la nouvelle structure, qui en retour pourrait bénéficier d’un accès privilégié à certaines données de ces mêmes entreprises.

Le déménagement à San Francisco s’inscrit dans une dynamique croissante de structuration organisationnelle et idéologique du collectif de management au cours des deux années qui suivent la création d’OpenAI.

D’abord rassemblée au sein même de l’appartement de Greg Brockman, la petite équipe de recherche d’OpenAI va ensuite migrer dans les locaux actuels de l’organisation, située dans le même bâtiment historique – le Pioneer Building – de San Francisco que l’entreprise Neuralink cofondée par Elon Musk. Le rez-de-chaussée accueille des espaces communs (cafétéria et bar en libre-service) et des salles de réunion de tailles variées, alors que les deux étages supérieurs regroupent les espaces d’expérimentation en robotique et les bureaux des employés, qui peuvent s’y rendre par l’escalier central que Sam Altman lui-même aurait conçu pour que chacun puisse régulièrement s’y croiser. L’influence d’Altman se retrouve d’ailleurs jusqu’au design de la bibliothèque de l’organisation, qui rappelle à la fois ses librairies parisiennes favorites et la Bender Room de la bibliothèque de l’université de Stanford qu’il a pu fréquenter lorsqu’il y était étudiant. Ce déménagement s’inscrit plus largement dans une dynamique croissante de structuration organisationnelle et idéologique du collectif de management, de recherche et d’ingénierie au cours des deux années qui suivent la création d’OpenAI.

Outre de nouveaux recrutements qui viennent s’ajouter aux membres fondateurs d’OpenAI[5], forte de 45 employés au début de l’année 2017, cette dynamique passe par la rédaction d’une charte interne, publiée en avril 2018, qui réaffirme le principal objectif de l’organisation – l’émergence d’une AGI bénéfique à l’ensemble de l’humanité[6] – tout en formulant quatre principes à suivre : une distribution la plus large possible des bénéfices des systèmes d’intelligence artificielle actuels et de l’AGI à venir ; une assistance à toute organisation susceptible d’aboutir à l’AGI dans une période de deux ans ; une recherche de pointe sur les enjeux techniques et sociaux de l’intelligence artificielle ; une coopération proactive avec d’autres institutions de recherche et de réglementation. Selon Karen Hao, une journaliste de la MIT Technology Review qui a pu passer quelques jours dans les locaux d’OpenAI et interroger une trentaine de personnes diversement familières de l’organisation, le montant du salaire de chaque employé serait défini en fonction de leur degré d’adhésion aux principes énoncés par la charte.

Par le biais de celle-ci, c’est également la croyance en l’avènement futur d’une intelligence artificielle aux capacités égales ou largement supérieures à celles des êtres humains qui est renouvelée : toujours selon Karen Hao, les employés d’OpenAI votent tous les ans pour donner leur estimation de la date d’existence de l’AGI, avec près de la moitié d’entre eux prêts à parier que cela arrivera d’ici 2035.

Dès les premières rencontres entre les membres fondateurs de l’équipe de recherche d’OpenAI, l’une des pistes privilégiées pour atteindre l’objectif ultime qu’est l’avènement d’une AGI s’avère être une combinaison de robotique et d’apprentissage par renforcement. Contrairement à la vision qu’on peut en avoir aujourd’hui, les premières contributions de l’organisation portent ainsi, non pas sur l’entraînement de grands modèles (de langue, de code, d’images, d’audio), mais sur la conception de « boîtes à outils » (toolkits) logicielles pour la recherche en apprentissage par renforcement : par exemple, OpenAI Gym regroupe une suite diversifiée d’environnements, qui représentent autant de tâches de difficultés variables (effectuer des calculs, jouer à des jeux vidéo Atari ou à des jeux de plateau, contrôler un robot dans un simulateur physique, etc.), afin de faciliter le développement et l’évaluation comparative d’algorithmes d’apprentissage par renforcement.

Par la suite, cet ensemble d’environnements est progressivement enrichi d’éléments supplémentaires (la plateforme logicielle Universe, les environnements open source de RoboSchool, les jeux vidéo de Gym Retro, les tâches d’exploration dites « sûres » de Safety Gym), qui visent à mettre sans cesse davantage à l’épreuve les agents entraînés par le biais d’apprentissage par renforcement : généraliser d’un environnement à l’autre (par exemple, d’un jeu Atari à un autre), faire interagir plusieurs agents dans un même environnement, ou encore les faire se plier à certaines contraintes spécifiques.

Cette complexification croissante de l’entraînement d’un ou plusieurs agents au sein d’environnements virtuels vise à répondre à l’un des principaux défis de la recherche en robotique, le « sim-to-real transfer », à savoir le fait que la performance d’un agent dans un environnement virtuel est susceptible de se dégrader fortement en raison du fossé qui existe entre cet environnement et la « réalité » (reality gap). Néanmoins, ne pas recourir à des environnements numériques – jeux vidéo, simulateurs physiques, réalité virtuelle – implique la prise en compte de plusieurs inconvénients non négligeables : passer par un fastidieux processus de collecte et de pré-traitement de données, non plus synthétiques, mais naturelles (images, vidéos) ; anticiper d’éventuelles défaillances susceptibles de mettre en danger le robot physique et son environnement immédiat ; accepter les temps d’entraînement bien plus conséquents des robots physiques par rapport à leurs homologues virtuels. Face à ces écueils, les chercheurs et ingénieurs d’OpenAI proposent une solution, la randomisation de domaine, qui consiste à diversifier encore davantage la variété des données synthétiques d’entraînement (conditions d’éclairage, textures non-réalistes, positions de la prise de vue et des objets) pour réduire autant que possible le « reality gap » tout en bénéficiant des avantages des environnements virtuels

Si la mise en place et le perfectionnement d’une suite logicielle comme OpenAI Gym restent encore relativement confidentiels auprès du grand public, les autres applications des recherches d’OpenAI en apprentissage par renforcement et en robotique bénéficient d’une couverture médiatique plus large. Dans le sillage des victoires successives d’AlphaGo et d’AlphaGo Zero de l’entreprise concurrente DeepMind, les algorithmes d’apprentissage par renforcement d’OpenAI vont s’illustrer contre  des joueurs amateurs et professionnels de Dota 2, un jeu vidéo a priori peu favorable aux agents autonomes pour plusieurs raisons (complexité des règles, longueur des séquences de jeu, visibilité partielle de l’espace de jeu, grand choix d’actions). Pourtant, en avril 2019, une équipe de cinq agents – nommée OpenAI Five – devient le premier système d’intelligence artificielle à gagner contre les champions du monde en titre d’un jeu esport. Du côté de la robotique, les chercheurs et ingénieurs d’OpenAI se concentrent sur une tâche bien spécifique, la manipulation d’objets, en montrant qu’un entraînement réalisé uniquement en simulation, couplé à de la randomisation de domaine, peut permettre à une main robotique de manipuler un bloc, voire de résoudre un Rubik’s Cube avec une seule main.

Comment comprendre cet intérêt marqué des membres fondateurs d’OpenAI pour l’apprentissage par renforcement et la robotique ? Selon nous, ce double intérêt tient à trois éléments : sur le plan scientifique, la mise en place et le perfectionnement d’une suite logicielle comme OpenAI Gym répondent à un véritable besoin de la part de la communauté de recherche en apprentissage par renforcement qui, malgré la popularité de ses méthodes, manque encore de procédures et d’outils standardisés pour l’évaluation comparative des algorithmes ; sur le plan industriel, la crainte d’une domination sans partage de Google sur ces deux domaines de recherches est motivée par le rachat successif de Boston Dynamics (2013) puis de DeepMind (2014), entreprise dans laquelle Elon Musk avait investi 1.65 million de dollars dès 2011 ; enfin, sur le plan idéologique, l’alliance des algorithmes de l’apprentissage par renforcement et des machines de la robotique est peut-être ce qui préfigure le mieux, dans l’imaginaire ambivalent des dirigeants d’OpenAI, partagés entre fascination et répulsion pour un scénario apocalyptique digne du film Terminator, les principaux risques à venir pesant sur l’humanité.

En raison de conflits d’intérêts susceptibles d’émerger entre les recherches menées à OpenAI et celles effectuées au sein de Tesla, Elon Musk finit par quitter le conseil d’administration de l’organisation en février 2018.

Pourtant, malgré ces trois éléments et les retombées symboliques des applications évoquées précédemment, le renforcement du mouvement de structuration organisationnelle engagé depuis la création d’OpenAI amène l’organisation à désinvestir progressivement ces deux pistes de recherche au profit d’un repositionnement explicite vers le développement et le déploiement de grands modèles. Suite aux premières discussions engagées en interne lors de la rédaction de la charte, la prise de conscience d’un réel besoin de vision stratégique à moyen et long terme se double en effet d’un constat relatif aux limites intrinsèques du statut d’organisation à but non lucratif pour faire jeu égal avec les principaux concurrents d’OpenAI dans la poursuite de l’AGI.

De ce point de vue, l’année 2018 marque un véritable tournant à partir duquel une série d’événements vont infléchir le positionnement scientifique, économique et idéologique de l’entité californienne. Selon un article du site Semafor, l’un des principaux éléments déclencheurs aurait été l’inquiétude d’Elon Musk, alors coprésident d’OpenAI, face à la montée en puissance de Google en matière d’intelligence artificielle depuis le milieu des années 2010 : rachats successifs de Boston Dynamics et de DeepMind, échos médiatiques des victoires d’AlphaGo et AlphaGo Zero, création de la division Google AI, sortie de la deuxième génération d’unités de traitement de tenseur (tensor processing units, TPUs), popularité de la bibliothèque TensorFlow, publication du célèbre article à l’origine de la nouvelle architecture neuronale « Transformer ».

Cette inquiétude pousse Elon Musk à tenter de prendre le contrôle d’OpenAI mais, face à la résistance des autres membres fondateurs, il finit par quitter le conseil d’administration de l’organisation en février 2018 en raison de conflits d’intérêts susceptibles d’émerger entre les recherches menées à OpenAI et celles effectuées au sein de Tesla[7]. Alors que Musk s’était engagé à investir près d’un milliard de dollars sur plusieurs années dans OpenAI, son départ du conseil d’administration marque, selon les sources de Semafor, la fin de son soutien financier à l’organisation, qui doit alors faire face aux coûts croissants imposés par l’entraînement de grands modèles extrêmement gourmands en puissance de calcul. En juin de la même année, c’est en effet le premier modèle « Transformer  génératif pré-entraîné », doté de 117 millions de paramètres, qui voit le jour, inaugurant ainsi la lignée des grands modèles de langue (large language models, LLMs) que sont GPT-2, GPT-3, et plus récemment GPT-4.

Figure montante d’OpenAI suite au retrait de Musk, Sam Altman envisage alors plusieurs options peu concluantes – comme se tourner vers des financements fédéraux ou bien lancer une nouvelle cryptomonnaie – pour renforcer l’assise financière de la structure, avant de finalement mener à bien deux opérations majeures : d’une part, en mars 2019, l’organisation à but non lucratif OpenAI Inc. se dote d’une entité à but lucratif, OpenAI Limited Partnership, qui permet de céder des parts aux employés et d’attirer de nouveaux investisseurs grâce à un statut hybride d’entreprise à bénéfices plafonnés (capped-profit company) ; d’autre part, suite à un premier rapprochement en 2016 et à une rencontre entre les présidents respectifs d’OpenAI et de Microsoft lors de la conférence annuelle Allen & Company Sun Valley, souvent qualifiée de « camp d’été pour milliardaires », les deux entreprises annoncent en juillet 2019 un partenariat pluriannuel qui consiste, pour Microsoft, à investir un milliard de dollars (notamment sous forme de crédits utilisables sur sa plateforme cloud Azure) et, pour OpenAI, à fournir un accès privilégié à ses modèles existants et à venir.

Depuis renforcé par dix autres milliards d’investissements de la part de Microsoft en janvier 2023, ce partenariat vient mettre à mal les ambitions d’indépendance, d’ouverture et de partage énoncées dans la charte d’OpenAI, déjà fragilisée par la décision d’une sortie progressive des modèles GPT-2 considérés un temps comme de potentiels supports pour des usages malveillants[8].

Les gigantesques ressources de calcul mises à disposition par Microsoft permettent à l’entreprise dirigée par Sam Altman de s’engager pleinement dans le développement et le déploiement de grands modèles capables de traiter un large éventail de modalités de données : du texte, avec la série des GPTs ; du code, avec le modèle Codex dont une version soutient l’assistant Copilot de GitHub, entreprise rachetée en 2018 par Microsoft ; des images, avec DALL·E puis DALL·E 2 ; de l’audio, avec Jukebox et plus récemment Whisper. Le tournant des années 2020 semble d’autant plus marquer une réorientation des efforts de recherche et d’ingénierie que le responsable de la robotique à OpenAI, Wojciech Zaremba, annonce lors d’un podcast de la startup Weights & Biases, daté de juillet 2021, que son équipe est en réalité dissoute depuis octobre 2019, date de la publicisation des résultats relatifs à la résolution d’un Rubik’s Cube par une main robotique.

Les principales justifications avancées sont doubles : d’une part, le relatif manque de données naturelles à disposition pour l’entraînement de systèmes embarqués et de robots, notamment au regard des jeux de données extrêmement volumineux utilisés dans d’autres domaines de recherche en intelligence artificielle (vision assistée par ordinateur, traitement automatique du langage) ; d’autre part, la robotique n’est plus considérée comme la voie privilégiée pour faire advenir une AGI, car les capacités généralistes et multimodales des modèles de fondation (foundation models) semblent désormais se rapprocher davantage de ce que certains considèrent comme les hypothétiques prémices d’une entité artificielle surhumaine.

Si les recherches en robotique subissent un coût d’arrêt en 2019[9], celles en apprentissage par renforcement vont au contraire trouver un nouveau souffle au tournant des années 2020, en étant intégrées à l’objectif prioritaire de développement et de déploiement de grands modèles par le biais d’enjeux de sûreté et d’alignement. Déjà présents dès les premiers temps de l’organisation, ces enjeux vont d’abord se cantonner aux agents évoluant au sein d’environnements simulés, avant de prendre une importance croissante au fur et à mesure du déploiement massif de modèles qui, malgré l’amélioration de leur performance, sont toujours enclins à générer du contenu potentiellement inexact, discriminatoire ou dangereux.

C’est précisément autour de cet enjeu de l’alignement entre les systèmes d’intelligence artificielle et les valeurs humaines que s’opère la rencontre entre les recherches en apprentissage par renforcement et celles sur les grands modèles, notamment lorsqu’il s’agit de grands modèles de langue désormais utilisés par des millions de personnes et intégrés au sein d’applications commerciales (moteur de recherche, agent conversationnel, outil d’assistance à la programmation).

Depuis GPT-2 jusqu’au récent GPT-4, certaines versions des grands modèles de langue d’OpenAI sont le résultat d’un processus qui conjugue apprentissage non-supervisé, apprentissage supervisé, et apprentissage par renforcement – l’apprentissage par renforcement à partir de rétroaction humaine (reinforcement learning from human feedback, RLHF) – afin d’assurer l’alignement de ces modèles avec les préférences, les instructions et les intentions humaines[10].

Encore largement perfectible, cette méthode constitue une réponse technique à une interrogation politique fondamentale à laquelle OpenAI ne répond que partiellement : à l’heure d’une prise de conscience croissante des autorités de régulation et de la multiplication des alternatives open source, le projet de l’alignement des systèmes d’intelligence artificielle risque ainsi de n’être qu’une rhétorique creuse tant que ne seront pas précisés les valeurs et les humains auxquels il ne cesse de faire référence.


[1] Le degré de supervision de l’apprentissage dépend principalement de l’existence ou de l’absence de labels (ou étiquettes) associés aux données utilisées pour l’entraînement d’un modèle : si les données sont labellisées, que cela soit manuellement ou (semi-)automatiquement, l’apprentissage est dit « supervisé » ; à l’inverse, si ce travail d’annotation généralement coûteux et chronophage n’est pas réalisé, l’apprentissage est dit « non-supervisé ». Entre ces deux extrêmes, il existe une piste intermédiaire, l’apprentissage semi-supervisé, qui vise à combiner un petit nombre de données labellisées avec un volume important de données non-labellisées, souvent plus faciles à obtenir. Moins connu que ces paradigmes d’apprentissage automatique, l’apprentissage par renforcement est pourtant à l’origine de certaines des avancées les plus médiatiques des recherches en intelligence artificielle : robots capables d’apprendre à se lever et à se déplacer en quelques heures ; agents virtuels à même de vaincre des joueurs humains lors de compétitions de jeux vidéo ou de jeux de plateau ; voitures autonomes en circulation sur des circuits fermés ou sur routes ouvertes. Ce type d’apprentissage se base sur la présence d’un agent – physique ou virtuel – au sein d’un environnement qui peut lui-même être physique (un laboratoire, une rue) ou bien simulé (un jeu vidéo, une réalité virtuelle). Étant donné un état spécifique de l’environnement, l’agent réalise une action conforme à une stratégie, appelée politique (policy), qu’il s’agit d’optimiser par essais-erreurs selon la récompense (reward) fournie en conséquence par l’environnement.

[2] Olivier Alexandre, La Tech. Quand la Silicon Valley refait le monde, Seui, 2023.

[3] Les deux autres étant Yann Le Cun, chief AI scientist à Meta, et Yoshua Bengio, directeur de l’Institut québécois d’intelligence artificielle (Mila). En 2019, ils ont tous les trois reçu le Prix Turing, qualifié de « Prix Nobel en informatique » et doté d’un prix d’un million de dollars.

[4] Un article du New York Times, daté de 2018, révèle néanmoins les montants des salaires de l’année 2016 des principaux chercheurs et ingénieurs d’OpenAI, dont le statut d’organisation à but non lucratif impose la publication des déclarations d’impôt : plus d’un 1.9 million de dollars pour le directeur de la recherche Ilya Sutskever ; plus de 800 000 dollars pour Ian Goodfellow, recruté en mars 2016 en provenance de Google et connu pour être à l’origine des réseaux antagonistes génératifs ; 425 000 dollars pour le roboticien Pieter Abbeel, pourtant embauché en juin 2016 ; 175 000 dollars pour le CTO de l’organisation, Greg Brockman, qui aurait délibérément accepté un salaire inférieur au reste des membres fondateurs. Les salaires et autres bénéfices accordés aux 52 employés d’OpenAI s’élèveraient à 7 millions de dollars en 2016, pour un total de 11 millions de dollars dépensés lors de la première année d’existence de l’organisation. Par comparaison, les 400 employés de DeepMind, la filiale d’intelligence artificielle rattachée au conglomérat Alphabet, représentent un coût salarial total de 138 millions de dollars, soit environ 345 000 dollars par employé.

[5] On peut ainsi citer : Ian Goodfellow, chercheur de Google à l’origine des réseaux antagonistes génératifs (Goodfellow et al., 2014) qui finit par revenir au sein de la firme de Mountain View un an plus tard ; Dario Amodei, lui aussi en provenance de Google, qui est plus tard rejoint par sa sœur Daniela Amodei, qui avait pu travailler auprès de Greg Brockman au sein de l’entreprise Stripe dont il était le directeur technique ; Pieter Abbeel, professeur à l’université de Californie qui reste environ un an et demi à OpenAI avant de fonder sa propre startup de robotique Embodied Intelligence ; Jack Clark, journaliste (The Register, Bloomberg) recruté comme responsable de la communication et de la stratégie. Dario Amodei, Daniela Amodei et Jack Clark font partie de la petite dizaine d’anciens employés d’OpenAI à l’origine de la startup Anthropic, créée en 2021 mais déjà valorisée à plus de 4 milliards de dollars suite au soutien d’investisseurs comme Google, Salesforce ou Sam Bankman-Fried.

[6] Dans la charte, cette intelligence artificielle générale est définie comme « des systèmes hautement autonomes qui surpassent les humains sur les tâches les plus valorisées économiquement ».

[7] Andrej Karpathy, l’un des premiers membres de l’équipe de recherche d’OpenAI, est ainsi recruté en juin 2017 par Elon Musk pour devenir le nouveau responsable de la recherche en intelligence artificielle à Tesla.

[8] La charte d’OpenAI mentionne toutefois le fait que ses membres s’attendent à ce que « des enjeux de sûreté et de sécurité viennent réduire leur démarche traditionnelle de publication dans le futur ».

[9] Cet abandon des recherches en robotique est néanmoins à relativiser au regard de la récente levée de fonds menée par le OpenAI Startup Fund en faveur de la startup norvégienne 1X Technologies, qui entend utiliser ces 23.5 millions de dollars pour développer les robots humanoïdes NEO et EVE. Ces derniers ne sont pas sans rappeler l’androïde Optimus dévoilé en octobre 2022 par Tesla, l’entreprise dirigée par Elon Musk. Suite à sa tentative avortée de prise de contrôle, l’entrepreneur est d’ailleurs particulièrement critique envers OpenAI : signataire d’une lettre ouverte du Future of life Institute appelant à stopper pour au moins six mois l’entraînement de modèles plus performants que GPT-4, Musk dénonce le changement de statut de l’organisation, le partenariat avec Microsoft, ainsi que la tendance au politiquement correct de ChatGPT. Désireux de fournir une alternative à OpenAI et ChatGPT, il est à l’origine de la récente création de X.AI, une startup chargée de concevoir le modèle qu’il appelle de ses vœux : TruthGPT.

[10] Pour une introduction plus complète au RLHF, voir le post de blog publié à ce sujet sur la plateforme HuggingFace.

 

Valentin Goujon

Sociologue, Coordinateur du séminaire FlashLab et du groupe de travail « Matérialités du numérique » associé au Centre Internet & Société

Mots-clés

IA

Martin Amis – jeu, set et match

Par

Loin de son image publique, mixte de frivolité et de détachement cyniques, Martin Amis se sera consacré corps et âme à son œuvre : quatorze romans, deux recueils de nouvelles, six essais, deux mémoires. Styliste... lire plus

Notes

[1] Le degré de supervision de l’apprentissage dépend principalement de l’existence ou de l’absence de labels (ou étiquettes) associés aux données utilisées pour l’entraînement d’un modèle : si les données sont labellisées, que cela soit manuellement ou (semi-)automatiquement, l’apprentissage est dit « supervisé » ; à l’inverse, si ce travail d’annotation généralement coûteux et chronophage n’est pas réalisé, l’apprentissage est dit « non-supervisé ». Entre ces deux extrêmes, il existe une piste intermédiaire, l’apprentissage semi-supervisé, qui vise à combiner un petit nombre de données labellisées avec un volume important de données non-labellisées, souvent plus faciles à obtenir. Moins connu que ces paradigmes d’apprentissage automatique, l’apprentissage par renforcement est pourtant à l’origine de certaines des avancées les plus médiatiques des recherches en intelligence artificielle : robots capables d’apprendre à se lever et à se déplacer en quelques heures ; agents virtuels à même de vaincre des joueurs humains lors de compétitions de jeux vidéo ou de jeux de plateau ; voitures autonomes en circulation sur des circuits fermés ou sur routes ouvertes. Ce type d’apprentissage se base sur la présence d’un agent – physique ou virtuel – au sein d’un environnement qui peut lui-même être physique (un laboratoire, une rue) ou bien simulé (un jeu vidéo, une réalité virtuelle). Étant donné un état spécifique de l’environnement, l’agent réalise une action conforme à une stratégie, appelée politique (policy), qu’il s’agit d’optimiser par essais-erreurs selon la récompense (reward) fournie en conséquence par l’environnement.

[2] Olivier Alexandre, La Tech. Quand la Silicon Valley refait le monde, Seui, 2023.

[3] Les deux autres étant Yann Le Cun, chief AI scientist à Meta, et Yoshua Bengio, directeur de l’Institut québécois d’intelligence artificielle (Mila). En 2019, ils ont tous les trois reçu le Prix Turing, qualifié de « Prix Nobel en informatique » et doté d’un prix d’un million de dollars.

[4] Un article du New York Times, daté de 2018, révèle néanmoins les montants des salaires de l’année 2016 des principaux chercheurs et ingénieurs d’OpenAI, dont le statut d’organisation à but non lucratif impose la publication des déclarations d’impôt : plus d’un 1.9 million de dollars pour le directeur de la recherche Ilya Sutskever ; plus de 800 000 dollars pour Ian Goodfellow, recruté en mars 2016 en provenance de Google et connu pour être à l’origine des réseaux antagonistes génératifs ; 425 000 dollars pour le roboticien Pieter Abbeel, pourtant embauché en juin 2016 ; 175 000 dollars pour le CTO de l’organisation, Greg Brockman, qui aurait délibérément accepté un salaire inférieur au reste des membres fondateurs. Les salaires et autres bénéfices accordés aux 52 employés d’OpenAI s’élèveraient à 7 millions de dollars en 2016, pour un total de 11 millions de dollars dépensés lors de la première année d’existence de l’organisation. Par comparaison, les 400 employés de DeepMind, la filiale d’intelligence artificielle rattachée au conglomérat Alphabet, représentent un coût salarial total de 138 millions de dollars, soit environ 345 000 dollars par employé.

[5] On peut ainsi citer : Ian Goodfellow, chercheur de Google à l’origine des réseaux antagonistes génératifs (Goodfellow et al., 2014) qui finit par revenir au sein de la firme de Mountain View un an plus tard ; Dario Amodei, lui aussi en provenance de Google, qui est plus tard rejoint par sa sœur Daniela Amodei, qui avait pu travailler auprès de Greg Brockman au sein de l’entreprise Stripe dont il était le directeur technique ; Pieter Abbeel, professeur à l’université de Californie qui reste environ un an et demi à OpenAI avant de fonder sa propre startup de robotique Embodied Intelligence ; Jack Clark, journaliste (The Register, Bloomberg) recruté comme responsable de la communication et de la stratégie. Dario Amodei, Daniela Amodei et Jack Clark font partie de la petite dizaine d’anciens employés d’OpenAI à l’origine de la startup Anthropic, créée en 2021 mais déjà valorisée à plus de 4 milliards de dollars suite au soutien d’investisseurs comme Google, Salesforce ou Sam Bankman-Fried.

[6] Dans la charte, cette intelligence artificielle générale est définie comme « des systèmes hautement autonomes qui surpassent les humains sur les tâches les plus valorisées économiquement ».

[7] Andrej Karpathy, l’un des premiers membres de l’équipe de recherche d’OpenAI, est ainsi recruté en juin 2017 par Elon Musk pour devenir le nouveau responsable de la recherche en intelligence artificielle à Tesla.

[8] La charte d’OpenAI mentionne toutefois le fait que ses membres s’attendent à ce que « des enjeux de sûreté et de sécurité viennent réduire leur démarche traditionnelle de publication dans le futur ».

[9] Cet abandon des recherches en robotique est néanmoins à relativiser au regard de la récente levée de fonds menée par le OpenAI Startup Fund en faveur de la startup norvégienne 1X Technologies, qui entend utiliser ces 23.5 millions de dollars pour développer les robots humanoïdes NEO et EVE. Ces derniers ne sont pas sans rappeler l’androïde Optimus dévoilé en octobre 2022 par Tesla, l’entreprise dirigée par Elon Musk. Suite à sa tentative avortée de prise de contrôle, l’entrepreneur est d’ailleurs particulièrement critique envers OpenAI : signataire d’une lettre ouverte du Future of life Institute appelant à stopper pour au moins six mois l’entraînement de modèles plus performants que GPT-4, Musk dénonce le changement de statut de l’organisation, le partenariat avec Microsoft, ainsi que la tendance au politiquement correct de ChatGPT. Désireux de fournir une alternative à OpenAI et ChatGPT, il est à l’origine de la récente création de X.AI, une startup chargée de concevoir le modèle qu’il appelle de ses vœux : TruthGPT.

[10] Pour une introduction plus complète au RLHF, voir le post de blog publié à ce sujet sur la plateforme HuggingFace.