Numérique

OpenAI, une histoire en trois temps

Sociologue

L’écho rencontré par le lancement de ChatGPT en novembre 2022 est venu mettre en lumière la position centrale occupée par OpenAI dans le paysage contemporain de la recherche en intelligence artificielle. Pourtant l’histoire de l’organisation fondée sous l’égide d’investisseurs et d’entrepreneurs bien connus de la Silicon Valley reste pour le moins méconnue. S’y intéresser est d’autant plus nécessaire que la trajectoire singulière d’OpenAI n’en est pas moins révélatrice de tendances plus larges relatives à l’orientation scientifique, économique et idéologique des startups et grandes entreprises de l’industrie du numérique.

L’analyse conjointe d’un ensemble de sources documentaires associées à OpenAI (publications scientifiques, posts de blog, articles de presse, documentation technique, vidéos de démonstration, dépôts GitHub, profils de médias sociaux) permet de rendre compte de l’évolution progressive des efforts de recherche et d’ingénierie de l’organisation : dans les premiers temps qui suivent sa création en décembre 2015, ces efforts se concentrent principalement sur la robotique et l’apprentissage par renforcement, l’un des trois principaux paradigmes d’apprentissage automatique dit « profond » (deep learning) avec l’apprentissage supervisé et son pendant non-supervisé[1] ; par la suite, l’intervalle 2018-2021 correspond à une période charnière pour la stratégie industrielle d’OpenAI, dont le positionnement économique, scientifique et idéologique va désormais s’aligner pleinement sur l’objectif prioritaire de développement et de déploiement de grands modèles ; enfin, le tournant des années 2020 semble amorcer le début d’un troisième moment où, pour faire face aux limites et dérives de ces mêmes modèles, la structure californienne fait se rencontrer les acquis des deux périodes précédentes autour d’enjeux de sûreté et d’alignement.

publicité

Ce premier temps s’ouvre avec l’annonce, en décembre 2015, de la création de l’organisation à but non lucratif OpenAI Inc. lors de l’avant-dernier jour de l’une des principales conférences scientifiques en intelligence artificielle, Neural Information Processing Systems (NeurIPS), qui se tient à Montréal cette année là. L’officialisation de l’existence de l’organisation fait suite à plusieurs mois de discussions et de tractations intenses entre plusieurs figures importantes de la Silicon Valley, haut lieu de l’innovation technologique aux États-Unis[2].Un soir de juillet 2015, Sam Altman, alors président de l’accélérateur de startups YC Combinator, organise un dîner à l’hôtel Rosewood Sand Hill, situé à proximité de l’université de Stanford e


[1] Le degré de supervision de l’apprentissage dépend principalement de l’existence ou de l’absence de labels (ou étiquettes) associés aux données utilisées pour l’entraînement d’un modèle : si les données sont labellisées, que cela soit manuellement ou (semi-)automatiquement, l’apprentissage est dit « supervisé » ; à l’inverse, si ce travail d’annotation généralement coûteux et chronophage n’est pas réalisé, l’apprentissage est dit « non-supervisé ». Entre ces deux extrêmes, il existe une piste intermédiaire, l’apprentissage semi-supervisé, qui vise à combiner un petit nombre de données labellisées avec un volume important de données non-labellisées, souvent plus faciles à obtenir. Moins connu que ces paradigmes d’apprentissage automatique, l’apprentissage par renforcement est pourtant à l’origine de certaines des avancées les plus médiatiques des recherches en intelligence artificielle : robots capables d’apprendre à se lever et à se déplacer en quelques heures ; agents virtuels à même de vaincre des joueurs humains lors de compétitions de jeux vidéo ou de jeux de plateau ; voitures autonomes en circulation sur des circuits fermés ou sur routes ouvertes. Ce type d’apprentissage se base sur la présence d’un agent – physique ou virtuel – au sein d’un environnement qui peut lui-même être physique (un laboratoire, une rue) ou bien simulé (un jeu vidéo, une réalité virtuelle). Étant donné un état spécifique de l’environnement, l’agent réalise une action conforme à une stratégie, appelée politique (policy), qu’il s’agit d’optimiser par essais-erreurs selon la récompense (reward) fournie en conséquence par l’environnement.

[2] Olivier Alexandre, La Tech. Quand la Silicon Valley refait le monde, Seui, 2023.

[3] Les deux autres étant Yann Le Cun, chief AI scientist à Meta, et Yoshua Bengio, directeur de l’Institut québécois d’intelligence artificielle (Mila). En 2019, ils ont tous les trois reçu le Prix Turing, qualifié de « Prix Nobel en informatique » et doté d’un prix d

Valentin Goujon

Sociologue, Coordinateur du séminaire FlashLab et du groupe de travail « Matérialités du numérique » associé au Centre Internet & Société

Mots-clés

IA

Notes

[1] Le degré de supervision de l’apprentissage dépend principalement de l’existence ou de l’absence de labels (ou étiquettes) associés aux données utilisées pour l’entraînement d’un modèle : si les données sont labellisées, que cela soit manuellement ou (semi-)automatiquement, l’apprentissage est dit « supervisé » ; à l’inverse, si ce travail d’annotation généralement coûteux et chronophage n’est pas réalisé, l’apprentissage est dit « non-supervisé ». Entre ces deux extrêmes, il existe une piste intermédiaire, l’apprentissage semi-supervisé, qui vise à combiner un petit nombre de données labellisées avec un volume important de données non-labellisées, souvent plus faciles à obtenir. Moins connu que ces paradigmes d’apprentissage automatique, l’apprentissage par renforcement est pourtant à l’origine de certaines des avancées les plus médiatiques des recherches en intelligence artificielle : robots capables d’apprendre à se lever et à se déplacer en quelques heures ; agents virtuels à même de vaincre des joueurs humains lors de compétitions de jeux vidéo ou de jeux de plateau ; voitures autonomes en circulation sur des circuits fermés ou sur routes ouvertes. Ce type d’apprentissage se base sur la présence d’un agent – physique ou virtuel – au sein d’un environnement qui peut lui-même être physique (un laboratoire, une rue) ou bien simulé (un jeu vidéo, une réalité virtuelle). Étant donné un état spécifique de l’environnement, l’agent réalise une action conforme à une stratégie, appelée politique (policy), qu’il s’agit d’optimiser par essais-erreurs selon la récompense (reward) fournie en conséquence par l’environnement.

[2] Olivier Alexandre, La Tech. Quand la Silicon Valley refait le monde, Seui, 2023.

[3] Les deux autres étant Yann Le Cun, chief AI scientist à Meta, et Yoshua Bengio, directeur de l’Institut québécois d’intelligence artificielle (Mila). En 2019, ils ont tous les trois reçu le Prix Turing, qualifié de « Prix Nobel en informatique » et doté d’un prix d