Stéphane Mallat : « C’est à nous de décider ce que nous voulons préserver ou déléguer à des ordinateurs. »
Face à la multiplication exponentielle des données numériques et aux enjeux industriels, sociétaux et scientifiques que représentent aujourd’hui l’analyse et le traitement de ces données, le Collège de France a décidé de créer une chaire de « Sciences des données », inaugurée en janvier et confiée à Stéphane Mallat. Professeur de mathématiques et d’informatique à l’École normale supérieure, il a d’abord consacré sa recherche aux mathématiques appliquées au traitement du signal et de l’image, avant de s’intéresser aux algorithmes d’apprentissage et aux réseaux de neurones profonds. Ses travaux ont contribué au développement de la théorie mathématique des ondelettes et à ses applications en traitement du signal, notamment pour le standard de compression d’images JPEG 2000. Naviguant de la recherche à l’entreprise (il a fondé une start-up en 2001), des États-Unis (où il a fait son doctorat) à la France (à l’École polytechnique puis à l’ENS), et du public au privé, Stéphane Mallat a toujours cherché à effacer les frontières entre théorie et pratique, recherche fondamentale et recherche appliquée.
Alors que le mathématicien (médaille Fields) et député LREM Cédric Villani a remis lundi vingt-et-une propositions pour améliorer l’enseignement des mathématiques à l’école, Stéphane Mallat évoque dans cet entretien la place croissante des mathématiques dans la société, de leur usage, de leur apprentissage, des liens entre mathématiques et intelligence artificielle.
Des mathématiques appliquées au traitement du signal et de la compression d’images aux sciences des données, votre parcours est fait d’allers-retours…
Oui, ma pratique des mathématiques appliquées est une forme de circulation dans cette boucle qui relie les applications à leur compréhension mathématique, qui en retour ouvre de nouvelles perspectives d’applications. J’ai commencé par un doctorat aux États-Unis où je me suis intéressé au traitement d’images, ce qui m’a amené à étudier la théorie naissante des ondelettes. Celle-ci permet de décomposer des phénomènes complexes comme des images, des sons, ou des mesures physiques, en structures plus simples qui apparaissent à différentes échelles. Pour les sons, ces ondelettes ressemblent à des notes de musique. C’est cette intuition issue des applications qui m’a permis de dégager les structures mathématiques sous-jacentes au problème posé par le mathématicien Yves Meyer dans son premier article en 1986 sur les ondelettes dites orthogonales. En retour, ces structures mathématiques m’ont conduit à développer l’algorithme rapide de calcul des coefficients d’ondelettes, qui a eu de nombreuses applications, dont le standard de compression d’images JPEG 2000. On a tendance à présenter les mathématiques comme un monde autonome, or ce n’est pas du tout le cas. Elles se développent aussi à partir des influx, des intuitions, du monde des sciences et des applications.
Quelle est l’histoire des sciences des données ?
Les sciences des données sont issues des statistiques et de la théorie de l’information de Shannon dans les années 1940. Leur transformation récente résulte de l’accumulation de masses considérables de données et de l’accélération des capacités de calcul des ordinateurs, qui a fait de l’informatique un acteur majeur de ce domaine. Cette rencontre a ouvert un champ d’applications beaucoup plus large, notamment l’apprentissage par ordinateur et le lien avec l’intelligence artificielle.
Vous avez aussi fondé une start-up, Let it wave, et donc établi des ponts entre recherche et entreprise. Diriez-vous qu’il y a des points communs entre le chercheur et l’entrepreneur ?
Pour moi les deux démarches sont très proches. J’ai vécu aux États-Unis où fonder une start-up était une initiative normale, si bien que de retour en France je n’avais pas d’inhibition. La culture et les talents d’un entrepreneur et d’un chercheur sont proches à beaucoup de points de vue. Créer une start-up ou se lancer dans un projet de recherche, c’est partir d’une page blanche, avec une formation, une vision, et s’attaquer à un problème pointu pour avoir potentiellement un impact international. Il faut en avoir envie, et être animé par une forme de naïveté qui sous-estime les difficultés en chemin. Il faut aussi savoir s’adapter en permanence sans perdre le sens de l’orientation. Un business plan dans une start-up se change tous les trois mois, tout comme les orientations d’une recherche, mais il est important de garder la vision qui porte le projet. Par ailleurs, la valeur d’un projet de recherche ou de start-up, c’est avant tout le talent de l’équipe. Chaque individu compte et n’est pas remplaçable comme c’est le cas dans une grande entreprise. Et puis c’est une culture de commando : on travaille très intensément pendant un temps défini pour sortir le projet, la démonstration ou le papier, éventuellement en le faisant tenir avec des bouts de scotch qui ne se voient pas. Enfin, il y a une forme de liberté, qui vient aussi parfois avec l’angoisse du vide et de l’échec, ce qui arrive souvent, même si on se rend compte que ce n’est pas si grave et que cela permet d’avancer. Après cette expérience, que j’ai achevée en 2008, j’ai donné des cours de création de start-up à des élèves de Polytechnique. Beaucoup d’entre eux voyaient leur avenir dans des grandes entreprises ou des corps d’État, et n’envisageaient pas d’autre issue. En réalisant qu’ils en avaient la capacité, beaucoup ont compris qu’ils pouvaient choisir leur voie et prendre des chemins de traverse.
Malgré tout, vous êtes revenu à la recherche…
C’est au fond, je crois, ce qui me fait rêver. Même quand j’ai des idées qui s’effondrent au bout d’une semaine, et c’est souvent le cas, au moment où j’y crois encore, c’est un grand plaisir. L’enseignement c’est le complément indispensable qui permet de partager et de prendre un peu de recul. C’est au cours de cette expérience d’entrepreneuriat que j’ai compris que la recherche n’était pas pour moi un passage mais une vocation. Et puis être entrepreneur implique un stress permanent. C’était quand même une aventure passionnante, et j’y reviendrai peut-être pendant ma retraite, qui sait ?
Qu’avez-vous retiré de l’expérience au sein de l’université américaine ?
Le système universitaire américain est extraordinaire, les institutions fonctionnent très bien à la fois pour les étudiants et pour les chercheurs, même si le coût est très élevé. Il a une capacité d’absorption de talents et de cultures incroyablement divers, et il est capable de les porter au plus haut niveau de leur discipline, avec de très bonnes conditions de travail. Le lien avec l’industrie est aussi plus flexible, même si en France la situation a beaucoup progressé en quinze ans. En revanche, les conditions financières des chercheurs dans les universités françaises sont insatisfaisantes. En sciences des données, domaine que je connais bien, on assiste à une véritable hémorragie, car les jeunes peuvent difficilement résister aux conditions de travail qui leur sont faites par les GAFA et autres grands groupes étrangers qui imposent une concurrence très forte. Même les sociétés françaises ont du mal à recruter. La plupart des chercheurs quittent l’université. Quand vous avez une différence de salaire de 1 à 5, il est très difficile de tenir bon. Aux États-Unis, les salaires à l’université sont bien meilleurs, par conséquent les chercheurs qui ont une vocation universitaire restent. De plus, les campus favorisent la pluridisciplinarité, alors qu’en France on a tendance à être éclaté dans différents départements et dans différents lieux. Malgré tout, la communauté mathématique française fonctionne très bien, les chercheurs sont excellents, et on travaille dans de relatives bonnes conditions. Mais c’est plus confortable de travailler aux États-Unis, c’est évident.
Que pensez-vous des regroupements d’universités en France type PSL et de la création des pôles d’excellence ?
Je n’en pense pas que du bien. On a eu tendance à faire un mille-feuilles, c’est-à-dire à ajouter des couches par-dessus des structures existantes de manière à donner l’apparence d’une structure unique. Le problème, c’est que chacune des sous-couches survit, et se bat pour avoir sa propre autonomie. Au final, cette architecture complexe a tendance à éloigner les chercheurs, les enseignants et les élèves de l’administration centrale. PSL a du mal à exister en tant que telle pour les enseignants et pour les étudiants. Certaines initiatives sont pourtant bonnes, comme le nouveau Cycle pluridisciplinaire d’études supérieures de PSL qui offre la possibilité à de jeunes étudiants universitaires de suivre un parcours plus diversifié. Mais tant que les universités n’auront pas de financements pérennes, une réelle autonomie de leur politique scientifique, et la possibilité de sélectionner les élèves pour éviter les taux d’échecs massifs des premières années, elles auront du mal à concurrencer les grandes écoles ou à s’allier avec elles. Cela doit cependant rester un objectif, car celles-ci sont souvent trop petites pour avoir une visibilité internationale et elles n’ont pas toujours des laboratoires de recherche du même niveau que ceux des universités.
Vous venez d’être élu au Collège de France, sur une nouvelle chaire intitulée « Sciences des données ». Comment définir cette discipline et pourquoi mettre « science » au pluriel ?
Les sciences des données ont pour but de développer des algorithmes qui extraient une forme de connaissance des données numériques. À la base se trouvent les statistiques qui permettent d’analyser les fluctuations aléatoires des données, mais aussi de nombreuses autres branches des mathématiques pour comprendre la nature des structures que l’on peut révéler avec des données. Puis, au cours des dix dernières années, s’est opéré un rapprochement avec l’informatique pour gérer des masses astronomiques de données. Autrefois, l’informatique était juste un outil, et c’est devenu un enjeu central de la recherche pour développer des algorithmes capables de traiter ces masses de données. Pourquoi le pluriel ? Disons que j’ai l’habitude de parler des sciences des données comme d’une auberge espagnole. Toutes les sciences tentent d’extraire de la connaissance à partir de données, en égyptologie aussi bien qu’en biologie ou en physique. Elles sont donc toutes concernées et apportent chacune une perspective et des questions différentes sur la table.
Le domaine a donc profondément évolué par rapport aux statistiques que l’on pratiquait encore il n’y a pas si longtemps ?
Il a changé car la nature des données a changé. En sciences des données, on part de données que l’on veut utiliser pour répondre à une question. On doit trouver le lien entre la mesure x et la réponse y, grâce à des exemples de données et de réponses. Or, on traite maintenant des données qui contiennent énormément de variables. Ainsi une image x a plus d’un million de pixels et donc plus d’un million de variables qu’il faut agréger pour répondre à une question. Il en est de même pour un son, un texte ou des mesures médicales ou génomiques. Ce grand nombre de variables pose des problèmes spécifiques. Imaginez votre donnée comme un point dans un espace de très grande dimension. Chaque variable définit une nouvelle dimension de variabilité. Jusqu’à maintenant, la science de la grande dimension était la physique, capable de modéliser des systèmes complexes comme une assemblée d’atomes. Désormais, on se pose le même type de questions pour la vision, l’audition, la compréhension du langage, du diagnostic médical, etc. Le développement des outils mathématiques en sciences des données et les questions soulevées ne sont donc pas très loin de ce qu’on utilise en physique. Ce qui est intéressant, c’est que la migration va dans les deux sens, pas seulement des maths vers les sciences des données. Les algorithmes fondés sur les réseaux de neurones ont par exemple obtenu des résultats spectaculaires qui permettent maintenant de faire de la prédiction en physique, de calculer des énergies en chimie quantique et d’obtenir des résultats surprenants. En mathématiques, on voit aussi émerger des questions nouvelles et des propriétés surprenantes. Sans compter les débouchés industriels gigantesques.
Quel lien faites-vous entre les sciences des données et l’intelligence artificielle, que l’on a tendance à voir partout ?
Dans les années 1970-80, l’intelligence artificielle était l’équivalent du « cerveau conscient », entendu comme la capacité à faire des raisonnements logiques. On en avait une vision très symbolique, en appliquant des règles aux symboles pour en déduire de nouveaux résultats. On s’est rendu compte que ces méthodes n’étaient pas capables de résoudre des problèmes complexes, comme, par exemple, la perception visuelle ou auditive. La forme d’intelligence artificielle qui émerge aujourd’hui est de nature différente, plus proche de notre « cerveau inconscient ». C’est une intelligence plus géométrique. On essaie de comprendre en quoi les phénomènes sont similaires ou dissemblables et cela passe par une phase d’apprentissage et d’expérimentation. Par exemple, pour distinguer un chien d’un chat dans une image, il faut agréger des millions de pixels pour établir des mesures de similarité. Derrière cela, la mémoire joue un rôle important ainsi que l’organisation de la connaissance. Ce qui est très intéressant, c’est que ce qui se passe en sciences des données se retrouve dans d’autres disciplines, où on assiste à des changements de paradigmes. En linguistique, il y a une scission entre une génération qui a appris les théories classiques de Saussure à Chomsky, basées sur l’analyse des propriétés de la syntaxe grammaticale et du lexique, et des jeunes éduqués avec les techniques de traduction automatique issues de l’apprentissage, qu’utilisent les applications de Google, Facebook ou autre. Les systèmes les plus efficaces n’utilisent plus d’a priori syntaxique, mais sont entièrement basés sur l’apprentissage à partir d’exemples, comme le font les enfants. Certains réseaux de neurones utilisés pour la traduction sont même multilingues et donc extraient des structures communes à toutes les langues avant de se spécialiser sur les dernières couches. On réalise notamment que les systèmes de règles sont efficaces dans des environnements contraints et simples mais ne sont pas capables de faire face à la complexité de la plupart des problèmes auxquels l’intelligence doit faire face.
En quoi est-ce donc si difficile d’apprendre et n’est-ce pas lié à des questions que l’on se pose depuis longtemps ?
Apprendre en sciences des données, cela veut dire être capable de généraliser à partir d’exemples. Il faut utiliser les exemples d’apprentissage pour dégager une forme de « régularité » qui relie les données x et la réponse y à la question. Les solutions mathématiques sont effectivement proches d’idées développées dans d’autres disciplines et notamment en philosophie. C’est par exemple le principe du rasoir d’Ockham qui recommande d’utiliser un nombre d’hypothèses minimum pour expliquer un phénomène, ce qui se traduit en statistiques par un principe de « parcimonie ». De même, l’information a priori joue un rôle central dans notre capacité d’apprendre. Cette question est un thème majeur de la théorie de la connaissance comme le montrent les œuvres de Platon, Locke, Hume et Kant qui argumentent sur la nature de la connaissance entre expérience empirique et savoir a priori. Les résultats mathématiques récents sur ces questions apportent un éclairage nouveau.
Est-ce que cela signifie que les sciences des données progressent de concert avec les autres sciences, et quels rapport entretiennent-elles avec les neurosciences ?
Les neurosciences sont une source d’inspiration, mais la question est plutôt : comment, par exemple, expliquer la convergence entre les structures de réseaux de neurones utilisées en neurosciences et en sciences des données ? Une des raisons avancées est qu’il existe des mécanismes mathématiques sous-jacents communs. Comme je le disais, le langage, la vision, la parole, le toucher, la mécanique quantique ou conduire une voiture impliquent de trouver des structures régulières dans des espaces de grande dimension. Il est possible que les solutions aient des formes d’équivalence, ce qui expliquerait pourquoi on retrouve des architectures similaires de calcul, que ce soit dans le cerveau ou avec des ordinateurs. Ainsi, on retrouve le même type de théorie mathématique pour expliquer des phénomènes en physique et pour l’apprentissage par ordinateur. C’est comme s’il y avait une forme d’unification à travers les maths : nous vivons un moment extraordinaire de ce point de vue. Des liens profonds apparaissent entre des disciplines différentes.
Votre cours au Collège de France s’intitule « L’apprentissage face à la malédiction de la grande dimension ». Pourquoi « malédiction » ?
Car nous sommes perdus dans un espace de possibilités monstrueusement grand, dont nous n’avons aucune chance de sortir sans des formes de régularité pour nous guider, données par des informations a priori. On a un sentiment de vertige face à l’infini des possibilités dès qu’on a beaucoup de variables. Mais vous savez, une malédiction est un événement fabuleux pour la recherche, car cela signifie qu’on doit trouver le chemin pour l’éviter !
Quelles questions posent ces sciences des données à la société ?
L’interface entre les produits dérivés de cette nouvelle « intelligence artificielle » et la société pose beaucoup de questions. Outre les nombreuses questions éthiques, il faut maintenant réfléchir à la manière d’adapter l’éducation, et les champs de compétence que l’on veut, ou que l’on ne veut pas, lâcher. Cela peut sembler anodin que les enfants ne connaissent plus leurs tables de multiplication vu que les calculettes le font bien mieux, mais on réalise maintenant que le calcul mental est un exercice primordial pour l’accès à l’abstraction des mathématiques, complémentaire du raisonnement. Autre exemple : le GPS. C’est un outil génial, mais la question est de savoir jusqu’où on veut aller et qu’est-ce qui reste de notre capacité de représentation de l’espace. Veut-on aussi laisser un algorithme choisir nos amis à partir d’un grand nombre de données qui leur offriraient éventuellement plus de « compétences » ? C’est à nous de décider ce que nous voulons préserver ou déléguer à des ordinateurs. Dans son livre Homo Deus. Une brève histoire de l’avenir (Albin Michel), Yuval Noah Hariri a très bien saisi l’état de la science, et il apporte un regard historique intéressant sur ces questions. Cependant, la difficulté quand on prédit l’avenir, c’est que les projections sont pessimistes car n’envisagent pas les capacités d’adaptation de la société. Prenez le cas du nucléaire. Jusqu’en 1945, il y avait un conflit majeur en Europe tous les trente ans, depuis deux mille ans. Autrement dit, nous avions peu de chances que la planète survive plus de trente ans aux armes nucléaires. Et pourtant, nous sommes (heureusement) toujours là. Les projections sont déprimantes, car elles n’incorporent pas ces capacités d’adaptation, difficiles à prévoir. Cependant, il ne faut pas oublier que cette évolution scientifique vient aussi et surtout avec des avancées extraordinaires. Le développement de la médecine personnalisée à partir du génome et l’agrégation d’informations multiples permettront d’avoir des diagnostics et des traitements bien plus fiables. La voiture autonome, l’économie d’énergie et beaucoup de services développés offrent des perspectives utiles pour tous. Comme pour toute évolution technologique, c’est à nous d’en tirer parti sans en être victime.
Mardi dernier, l’Assemblée nationale a commencé d’examiner un projet de loi relatif à la protection des données personnelles. En quoi les sciences des données ont-elles des implications dans le domaine de la vie privée ?
Elles ont une implication considérable puisque des algorithmes peuvent agréger énormément d’informations, et prédire des comportements humains ou suivre votre activité en temps réel. Il existe un intérêt convergent entre l’État et les sociétés privées, mais pas forcément entre l’État, les sociétés privées et le citoyen. Même un État bienveillant qui veut protéger ses citoyens va vouloir centraliser les données et donc surveiller les activités de chacun, là où le citoyen va chercher à protéger les informations qui le concernent. Les sociétés privées ont, elles des intérêts marketing évidents. Le fait qu’on ait des assistants personnels qui envoient beaucoup de données sur le cloud peut devenir dangereux si ces informations ne sont pas cryptées et sécurisées. Ces données sont gérées par des sociétés qui ont une capacité de recherche supérieure à celle de la recherche publique. Il y a là des enjeux démocratiques. C’est aussi pour cela que légiférer est important. Cependant, ces problèmes sont délicats. Dans le domaine médical par exemple, on a besoin de mettre à disposition des données pour faire avancer la recherche, tout en faisant le maximum pour protéger l’identité des personnes. Il faut donc légiférer avec finesse.
Où en est l’industrie en France ?
D’un côté on a un tissu de start-up très dynamique qui développe de nouvelles applications, et de l’autre des grandes entreprises qui sont nettement moins dynamiques dans ce secteur. Les grandes entreprises françaises sont beaucoup moins présentes que les grandes sociétés américaines (GAFA) ou chinoises, que ce soit sur Internet ou dans l’industrie des télécommunications ou des portables. Celles-ci viennent par contre s’implanter en France pour développer leurs laboratoires de recherche, qui sont partiellement remboursés par des aides comme le crédit impôt-recherche. Cette situation pose des questions importantes de politique industrielle, sachant que l’université et beaucoup d’entreprises françaises ont du mal à entrer en concurrence pour les recrutements de talents.
Vous avez lu le rapport de mission du mathématicien Cédric Villani et de l’inspecteur général de l’Éducation nationale Charles Torossian sur l’enseignement des mathématiques à l’école, remis ce lundi au ministre de l’Éducation nationale. En tant que mathématicien, que pensez-vous de leurs conclusions ?
En général, je me méfie des recommandations de mathématiciens qui n’ont pas de véritable expérience de l’enseignement à l’école ! C’est ainsi que l’on a introduit l’enseignement des « mathématiques modernes » dans les années 70, qui a été un échec pédagogique magistral. Mais en l’occurrence, ce rapport me semble très bien. Il y a effectivement un grand écart entre l’excellence de nombreux chercheurs et les difficultés scolaires de beaucoup d’élèves en maths. Sans doute parce que notre système est très sélectif et produit de très bons chercheurs en laissant sur le bord de la route beaucoup de monde. La peur des maths est un phénomène bien connu et qui ne devrait pas exister, surtout dans les petites classes. La proposition de travailler sur la formation des maîtres me paraît fondamentale. Pour transmettre l’amour d’une discipline, encore faut-il aimer cette discipline. Or, en France, beaucoup d’enseignants ont une bonne formation littéraire et non pas scientifique, et ont peu de goût pour les mathématiques, comme le disent les auteurs du rapport. Leurs conclusions, comme faire en sorte que les élèves s’amusent en faisant des maths, me paraissent être du bon sens et d’ailleurs elles sont plutôt consensuelles. Certains enseignants pratiquent déjà ce genre de choses. La question centrale c’est comment généraliser ce type de mesures pédagogiques.