Les algorithmes ne prédisent rien… mais vont tout changer !
C’est bien connu, les prédictions sociales sont difficiles. Le récent florilège de pronostics sur la coupe du monde, utilisant les algorithmes les plus sophistiqués et des dizaines de caractéristiques pour chaque pays, n’échappe pas à la règle. Ils ont généralement abouti à désigner comme principaux favoris l’Allemagne ou l’Espagne, tous deux éliminés sans gloire dès les premières étapes de la compétition. Plus sérieusement, un article récent d’économistes s’est livré à une analyse rétrospective des prédictions de croissance des principaux organismes officiels (FMI, INSEE, OCDE…). Le verdict est sans appel : leurs prévisions sont à peine plus fiables qu’un modèle très simple, prédisant que la croissance de l’année a venir sera… la même que celle de l’année écoulée ! La complexité des modèles utilisés servirait-elle à donner une apparence de scientificité, pour légitimer politiquement les prédictions ?
Cependant, on peut imaginer que l’avalanche de données sociales produite par la révolution numérique permettra de mieux ajuster les paramètres des modèles, conduisant à des résultats plus fiables. Et il est vrai qu’on ne compte plus les annonces sur la puissance des prédictions sur les lieux des prochains crimes, les chances de récidive d’un coupable, ou notre prochain achat sur Internet. Faut-il les prendre pour argent comptant ? Non, parce que le secret qui entoure la plupart des prédictions, par intérêt commercial ou militaire, est propice aux fantasmes médiatiques exagérant leur puissance. Les études publiques, qui permettent d’évaluer l’efficacité de ces approches ne sont pas légion, mais aboutissent invariablement à des prédictions décevantes. Prenons deux exemples récents.
Aux États-Unis, des algorithmes sont couramment utilisés pour évaluer la probabilité qu’un délinquant récidive. Ces prédictions sont utilisées comme aide à la décision pour une libération conditionnelle ou pour déterminer la peine. Les entreprises qui les commercialisent soutiennent qu’on aboutit ainsi à des analyses plus précises et moins biaisées. En prenant l’exemple d’un logiciel utilisé sur plus d’un million de délinquants depuis 1998, un article publié en janvier dans la revue Science a montré qu’il n’est pas plus précis ou équitable que les prédictions faites par des personnes sans expertise judiciaire. Ils ont en outre montré que la plupart des 137 caractéristiques utilisées par le logiciel étaient superflues. En prenant seulement l’âge et le nombre de condamnations passées, on peut retrouver l’essentiel des résultats.
On comprend bien que pour que cette approche fonctionne, il faut que le monde soit assez stable, pour que la relation trouvée sur une partie des données reste valable ailleurs.
Le deuxième exemple concerne la prédiction du nombre de retweets généré par un tweet, c’est-à-dire le nombre de fois qu’un message va être relayé par d’autres usagers. L’étude a été menée par une star du domaine, patron de la recherche à Microsoft, Duncan Watts. L’équipe a rassemblé tous les tweets écrits en février 2015, soit un milliard et demi de messages émis par 51 millions d’utilisateurs distincts, et aboutissant à 2 milliards de retweets. Chacun des tweets est décrit par treize caractéristiques du message (quel site Internet est mentionné ? À quelle heure a-t-il été posté ? Sur quel sujet ?) et de l’expéditeur (combien d’abonnés a-t-il ? Combien de tweets a-t-il envoyés ?). Les chercheurs utilisent un algorithme standard qui doit quantifier la qualité du tweet, du style : « si l’utilisateur compte plus de 53 tweets, entre 109 et 242 abonnés, et que le sujet du tweet est le sport», alors il aura un nombre de retweets entre 3 et 5. La difficulté étant bien sûr de trouver des règles qui marchent pour tous les tweets satisfaisant aux critères. Le résultat de leur étude est clair : le succès d’un tweet reste largement imprévisible. Techniquement, seuls 20 % de la variabilité du succès des différents messages est expliquée par ce modèle, pourtant très complexe, et d’ailleurs incompréhensible, comme cela arrive souvent pour les méthodes utilisant l’apprentissage automatique. Pour parvenir à une meilleure prédiction (40 %), il faut connaître une variable supplémentaire, le nombre moyen de retweets obtenu dans le passé par l’utilisateur.
Comment comprendre ces échecs ? Je me limiterai ici à un des facteurs principaux, la variabilité du social, en renvoyant à mon livre pour une discussion plus complète. Les algorithmes qui analysent les mégadonnées « apprennent » des régularités dans une partie des données, puis les extrapolent au reste. Dans le cas des tweets, l’équipe a d’abord fourni à l’algorithme le succès de tous les messages émis pendant les trois premières semaines de février. Fort de la fonction qualité apprise sur cette partie des données, l’algorithme devait ensuite prédire la réussite des messages de la dernière semaine, en fonction de leurs caractéristiques. On comprend bien que pour que cette approche fonctionne, il faut que le monde soit assez stable, pour que la relation trouvée sur une partie des données reste valable ailleurs. Sinon, même l’algorithme le plus sophistiqué fera des prédictions fantaisistes.
Il faut juger ces outils non en termes de logique, mais éco-logiques, au sens où ce qui compte n’est pas leur cohérence mathématique mais leur adaptation à l’objet qu’on étudie et au sujet qui prédit.
Une question vient alors à l’esprit : comment parvenons-nous à nous débrouiller dans le monde social, alors que des ordinateurs qui possèdent une puissance de calcul, une mémoire et des données d’une tout autre ampleur, semblent patauger ? Une partie de la réponse est que nous utilisons une approche très différente, grâce à des règles simples, des « heuristiques ». Il faut bien voir que les approches mathématiques ne représentent qu’un des outils possibles pour prédire ou prendre des décisions. Et qu’il faut juger ces outils non en termes de logique, mais éco-logiques, au sens où ce qui compte n’est pas leur cohérence mathématique mais leur adaptation à l’objet qu’on étudie et au sujet qui prédit. Prenons un exemple simple : à votre avis, quelle est la capitale la plus peuplée, Minsk ou Kiev ? Tentez une réponse avant de lire la suite…
Probablement vous aurez fait le même choix que la plupart des gens, choisissant la deuxième ville, parce que ce nom vous semble plus familier, peut-être grâce à son club de foot, et c’est en effet la bonne réponse. Voilà une heuristique simple, largement exploitée par les grandes marques : pour choisir entre deux alternatives, en l’absence d’autre critère, je prends la plus familière. Il en existe bien d’autres heuristiques, souvent résumées par des dictons : « ne place pas tous tes œufs dans le même panier », ou « le mieux est l’ennemi du bien ». Un exemple amusant du premier est donné par Harry Markowitz, un économiste qui plaçait son argent en bourse en le distribuant de manière équilibrée entre plusieurs fonds, alors qu’il avait obtenu le prix « Nobel » pour un calcul sophistiqué permettant en principe d’optimiser les placements ! Pour le deuxième, nous savons que, au lieu de tenter de trouver le « meilleur » logement parmi toutes les possibilités, il convient de se donner quelques caractéristiques essentielles et accepter le premier qui les satisfait. L’utilisation d’heuristiques n’est pas limité aux processus intellectuels. Ainsi, pour rattraper une balle lancée de loin comme au baseball, notre cerveau ne calcule pas la trajectoire en utilisant les équations de Newton comme le ferait un physicien. Il est bien plus simple, une fois que la balle est lancée, de courir en fixant le regard sur la balle, en ajustant sa vitesse de course pour que l’angle du regard reste constant. On peut ainsi éviter tous les calculs compliqués et se trouver à l’endroit où la balle tombera.
Quand on possède un grand nombre de données sur beaucoup de personnes, le banal « demain sera comme aujourd’hui » devient, par un effet de masse, socialement puissant.
Pourquoi ces heuristiques marchent aussi bien, voire mieux, que les approches mathématiques dans notre monde incertain ? C’est simplement qu’on force les algorithmes à trouver une relation mathématique qui n’existe pas. C’est le cauchemar de l’intelligence artificielle, le « surajustement » : l’équation trouvée sur les données d’apprentissage s’exporte mal, menant à de mauvaises prédictions. Alors que notre cerveau, de manière « intuitive » et encore mystérieuse, semble savoir choisir l’heuristique adaptée en s’appuyant sur sa connaissance du monde social. Ne serait-ce qu’en utilisant une heuristique simple – « demain sera comme aujourd’hui » –, prévision banale mais que les algorithmes sophistiqués ont du mal à dépasser, comme on l’a vu dans les exemples : c’est le nombre de condamnations passées qui sert à prédire la récidive, ou le nombre de retweets passés à calculer le succès d’un tweet. Philosophiquement, l’idée de raison éco-logique pourrait être rapprochée du critère pragmatiste de vérité. Les heuristiques en elles-mêmes ne sont ni bonnes ni mauvaises. Elles ne peuvent être évaluées que par rapport à l’environnement dans lequel elles sont utilisées. Plus la correspondance entre une heuristique et l’environnement est fonctionnelle, plus le degré de rationalité écologique de l’heuristique est élevé. La fonctionnalité de cet accord est vérifiable par son succès, plutôt que par des exigences de cohérence mathématique ou logique.
Les sciences naturelles ont acquis une bonne compréhension des facteurs qui déterminent les changements. En physique, on sait depuis Newton que les forces causent les changements de vitesse, ce qui permet de prédire le mouvement d’un objet. En biologie, la théorie de l’évolution permet de comprendre la dynamique de la vie. Mais nous n’avons pas une théorie dynamique du social, ce qui limite nos prévisions au « demain sera comme aujourd’hui », et les mégadonnées n’y changeront rien. Mais attention ! Il ne faut pas pour autant minimiser l’impact de la révolution numérique. Elle a déjà fait ses preuves dans des domaines importants comme la santé ou les véhicules autonomes. Mais son impact sur nos sociétés ne passe pas par des prédictions précises, quasi magiques, de nos comportements. Quand on possède un grand nombre de données sur beaucoup de personnes, le banal « demain sera comme aujourd’hui » devient, par un effet de masse, socialement puissant. Et le pouvoir des détenteurs des données sera renforcé par le contrôle social qu’elles permettent, par le dressage des individus devenus traçables, à l’image du « crédit social » mis en place en Chine. Pas besoin de fantasmer sur les prédictions des algorithmes pour tenter d’en prendre le contrôle !