L’Étalon et le Big Data
Ma femme et moi habitons trois mois par an à Paris. Nous marchons beaucoup et tombons parfois sur certaines choses dont nous ignorions l’existence avant d’y achopper. Il y a plusieurs années, en déambulant rue de Vaugirard, nous avons découvert, au numéro 36, presqu’en face du Sénat, un des deux seuls mètre-étalons encore existant (l’autre est Place Vendôme). Il s’agit là de l’une des 16 copies dérivées du mètre-étalon originel qui servit comme mesure universelle pour le mètre quand fut promulgué le nouveau système métrique après la Révolution. Comme tout le monde, je « savais » de façon un peu abstraite qu’il y avait quelque part des modèles de toutes sortes de mesures fondamentales. Mais cette fois-ci, sans prévenir, juste sous mes yeux, se tenait la chose tangible – nichée dans le creux d’un mur d’une rue bondée – et cela me fit forte impression. C’était la réalité derrière l’abstraction, ce à quoi on pouvait se référer si l’on venait à douter de tout le système de mesure.
En examinant cet étalon, j’y trouvai de quoi élucider une question qui me turlupinait depuis longtemps. Les indicateurs et le « Big Data », instruments de la mode actuelle qui consiste à transformer toute idée en une quantité mesurable, sont devenus la fierté des organisations modernes. Leurs managers « prouvent » à quel point ils font bien leur travail en convoquant des dispositifs de collecte et de traitement de portions de données agglomérées pour mesurer les performances des employés et des organisations qu’ils dirigent, tout particulièrement dans les universités et les organismes de recherches qui touchent à mes propres activités intellectuelles. Que ces systèmes puissent affecter la vie intellectuelle et les activités des universités, des organismes, et des chercheurs commençait à m’inquiéter. J’adoptais donc un regard critique sur les mesures invoquées par ces organismes pour prendre telles ou telles décisions, si décisives pour la vie des personnes et des organismes qui produisent le savoir sur le monde dans lequel nous vivons et travaillons.
Chaque fois que je considérais ces « mesures de qualité », je trouvais qu’elles mettaient tout en œuvre pour persuader les lecteurs que ce qui était présenté sous forme numérique et rangé dans un tableau devenait irréfutable car « scientifique », et donc, vrai. Des gestionnaires exposant sur des graphiques que l’université “A” a publié davantage d’articles dans des bonnes revues, estimées par les pairs, que l’université “B”, prouveraient ainsi que l’université “A” est une institution supérieure ; priant l’audience de bien vouloir accepter que le graphique vaut comme preuve de cette évaluation. Plusieurs personnes ont déjà soulevé le caractère spécieux de ces mesures comme indicateurs de la qualité scientifique et académique des universités, de leurs départements spécialisés et de leurs unités de recherche.
Le nombre de mots dans les titres des articles de l’American Sociological Review a triplé dans un intervalle de temps très court.
Ces mesures établissent-elles bien ce qu’en défendent leurs promoteurs ? Que mesurent-elles vraiment ? Par exemple, considérons l’évaluation de la qualité d’un article, et donc de la notoriété de son auteur, dans un champ académique précis, par le nombre de citations qui renvoient à cet article dans les notes de bas de page ou la bibliographie d’autres papiers publiés dans le champ académique dans les trois années suivant sa parution. Choisir une durée de trois ans est, bien sûr, arbitraire. Aucune recherche ne prouve que les citations ultérieures soient de moindre pertinence, ou, bien sûr, que les auteurs citent des articles en raison de leur bonne qualité ! Aucune étude ne montre, non plus, que toute citation signifie assentiment ou validation. Souvent des articles sont cités pour être critiqués. Et parfois certains articles sont cités à la suite d’une rapide recherche menée sur internet par l’auteur de manière à laisser entendre qu’il n’a pas pu passer à côté d’une référence pertinente.
Il faut ajouter à ces évidentes sources d’erreurs de mesures les résultats de la loi de Campbell, énoncée par le psychologue Donald Campbell en 1976 : «Plus un indicateur social quantitatif est utilisé pour la prise de décision sociale, plus il sera soumis aux pressions de la corruption et plus il sera apte à déformer et corrompre les processus sociaux qu’il est censé surveiller. ». Ce qui signifie : toute personne concernée par de telles tentatives de mesure fera de son mieux pour manipuler le cadre de mesure afin d’obtenir le meilleur score possible.
J’en ai trouvé une illustration presque comique dans un (très court) article de mon cru, qui montrait que le nombre de mots dans les titres des articles de l’American Sociological Review, la plus importante revue américaine du champ, avait triplé dans un intervalle de temps très court, passant d’environ quatre mots en 1950 à 11,7 en 2002.
Pourquoi mes collègues sociologues font-ils cela ? L’examen révèle que cet accroissement résulte de l’adjonction de termes très précis dans les titres : le nom du pays dans lequel la recherche a été menée, la méthode utilisée pour collecter ou analyser les données, les variables-clés mesurées et utilisées dans l’analyse, etc. Exemple canonique : « L’effet de la classe, de l’éducation, du genre et de l’ethnicité, sur l’orientation politique en Argentine : un sondage basé sur un échantillon national ». Nous pouvons formuler l’hypothèse que les auteurs incluent plus de termes pour intéresser d’autres auteurs demandeurs de références pour leurs propres recherches, pour rendre leurs articles sujets à citations. Ils peuvent aussi juste avoir fait une recherche Google portant sur les articles pouvant être intéressants pour leur travail, et citer les articles sur lesquels la requête Google a abouti, pour ainsi se prémunir contre le risque d’avoir omis un élément important de littérature.
Il s’agit de regarder avec un œil critique le recours à la citation pour mesurer la qualité d’un article.
Mais attendez voir, m’objecterez-vous avec raison : ce que je dis tombe sous le coup de ce que je dénonce, du grief de raisonnement fallacieux, que j’avais moi-même porté à l’encontre du jeu sur les données ! Je suis d’accord. Même, j’insiste là-dessus. J’ai extrait quelques nombres d’une source tout à fait accessible, j’en ai suggéré une variation, et ai inventé une explication probable. Mais je ne sais, en vérité, rien à propos du phénomène sous-jacent en dehors de sa mesure. Tous les autres moments de mon explication ne sont rien de plus que des hypothèses plausibles, non étayées par des données solides sur les arrière-pensées et intentions des auteurs. Pour appuyer ma « théorie » je devrais avoir, au minimum, des témoignages d’auteurs m’expliquant quels raisonnements les conduisent à citer tel ou tel article.
Il s’agit de regarder avec un œil critique le recours à la citation pour mesurer la qualité d’un article. Pour une telle mesure, il faudrait accepter que les articles soient évalués par des juges qualifiés. Mais, d’après Andrew Abbott, le directeur de longue date de l’autre importante revue de sociologie aux États-Unis, l’American Journal of Sociology, on ne peut pas croire cela. Les données brutes qu’il recueille sur le nombre de revues et le nombre d’articles qui leur sont soumis révèlent que, du fait de l’incroyable augmentation du nombre de sociologues ces cinquante dernières années, il y a eu une augmentation correspondante du nombre de revues, et, ainsi, un durcissement des exigences en reconnaissance par les pairs. Il est immédiatement évident qu’il y a trop d’articles et trop peu de juges pour assurer que le geste de publication atteste de la qualité d’un article. Et on peut facilement imaginer que l’expérience d’Abbott, qui doit se reposer de plus en plus sur des étudiants diplômés plutôt que sur des universitaires expérimentés pour évaluer les articles soumis à sa revue renommée, se retrouvera dans toute revue moins considérée.
Nous pourrions nous faire une idée de la qualité des articles publiés en appliquant un autre test, suggéré par Bruno Latour quand il observe que l’avenir d’une découverte scientifique réside entre les mains de ceux qui en assurent la postérité. Ce qui en suit m’avait été expliqué il y a des années par un statisticien éminent qui reconnaissait que les tests statistiques de significativité, abondamment utilisés pour éprouver la validité de résultats numériques étaient, d’un point de vue logique, inappropriés, et, de fait, vains. La seule façon de juger de la valeur d’un article, me disait-il, était de patienter trente années. Si les enseignements des articles étaient corrects, ils auraient été exploités de nombreuses fois pour susciter de nouvelles recherches. Autrement, les chercheurs auraient cherché en vain à mobiliser les conclusions des articles, se seraient rendus compte qu’ils ne « fonctionnaient » pas, et auraient fini par les jeter aux oubliettes. Mais cette mesure plus réaliste de la qualité des recherches ne satisfait pas à l’obligation de résultats immédiats qu’exigent les managers de la recherche aujourd’hui. Puisqu’ils ont le choix, ils sacrifient la validité au profit de l’applicabilité immédiate.
Il n’existe aucune barre de métal adéquate pour apprécier la qualité de la littérature académique.
Nous n’avons pas « d’étalon » pour comparer toutes les choses que mesure le « Big Data » aujourd’hui. Il n’existe aucune barre de métal adéquate pour apprécier la qualité de la littérature académique, ni rue Vaugirard ni ailleurs.
Puisque nous ne pouvons pas attendre trente ans, nous devons rechercher plus activement et en découvrir toujours plus sur ce que nous étudions. Tout le « Big Data » aux mérites tant vantés est composé d’éléments dont les connexions avec les choses qui nous intéressent vraiment sont tout autant approximatives. Des chiffres de vente pour évaluer l’activité de la production musicale ? Des cases cochées sur un questionnaire ? Des réponses à des questions posées par téléphone (en gardant à l’esprit que la plupart des personnes ne répondent pas aux interviews téléphoniques et coupent court à l’appel) ? Ou d’autres indicateurs largement surinterprétés approchant ce que nous voudrions vraiment savoir ?
Les scores des amis et sujets de recherche de William Foote Whyte’s au bowling dans Street Corner Society constituent une des plus célèbres collections de données numériques dans l’histoire de la sociologie. Ces données montrent que les leaders du groupe gagnent souvent les parties, alors que les autres joueurs jouent mieux qu’eux lorsqu’ils jouent hors du groupe. D’autres recherches (Davis, Davis and Gardner’s dans Deep South) révèlent par exemple que l’on peut obtenir des informations plus fiables sur les rapports qui se tissent entre les personnes (dans les soirées festives et autres rencontres) en se rendant sur le terrain et en examinant soi-même le terrain plutôt qu’en questionnant a posteriori les personnes sur leurs rencontres… Regardez mieux, passez plus de temps, consacrez plus d’argent peut-être, et vous aurez une meilleure connaissance de ce sur quoi vous souhaitez bâtir une théorie.
Dans tous ces cas, on possède un « étalon » à portée de main, qui, par comparaison, sert à évaluer la mesure appliquée aux variables que l’on souhaite quantifier. Ces opérations nécessitent du temps, et, en général, de l’argent. Mais si l’on souhaite obtenir une mesure crédible, on ne peut négliger l’importance d’un étalon, d’une référence. C’est ce qu’il convenait d’appeler, quand j’étais étudiant, un test de validité (et avec lui venait un test de fiabilité, qui vérifiait qu’un résultat identique serait obtenu en réitérant la mesure du même objet de la même manière).
Quand les chantres du Big Data et les Madame Soleil des universités accepteront les rigoureux standards que requiert une mesure juste, ils auront mérité le droit d’être pris au sérieux. Pas avant.
Traduit de l’anglais par Benjamin Tainturier et Laëtitia Romain