Société

Au-delà de l’écran de fumée de la « reconnaissance faciale »

Sociologue

Même si elle n’inclut pas le traitement de données faciales, la récente « loi JO » donne la possibilité à certaines entreprises développant des systèmes de vidéosurveillance algorithmique de tester leurs systèmes sur les flux de vidéosurveillance des caméras déjà déployées. On ne peut s’empêcher de voir derrière ces technologies à un premier pas vers l’automatisation de la surveillance et le contrôle des personnes exilées au cours de leur parcours migratoire, répondant à une volonté politique globale appuyée par une industrie en pleine expansion.

La reconnaissance faciale évoque très rapidement un imaginaire de surveillance souvent aussi fourni qu’imprécis. Les représentations de ce type de technologies dans la culture pop se mêlent à d’autres exemples réels ou fantasmés de systèmes aujourd’hui déjà déployés ou au contraire formellement interdits dans nos espaces publics.

publicité

Il peut sembler que beaucoup a déjà été dit sur le sujet – sur ses implications socio-philosophiques à la 1984 jusqu’à ses considérations les plus actuelles, telles que l’utilisation de tel ou tel système par des forces de police ou autre institution étatique. Ce qui relie la plupart de ces perspectives, c’est leur point départ : les technologies de reconnaissance faciale, ou même simplement la reconnaissance faciale comme fait technologique et outil monolithe.

Or, non seulement cette désignation simpliste tend à effacer les particularités des différents systèmes qu’elle sert à nommer, elle contribue par ailleurs à placer le débat en aval de la création de ces technologies. Ces dernières sont rarement expliquées, ni leur développement et production contextualisés. Pour exister, ces technologies induisent par exemple des systèmes de surveillance et de collecte de données biométriques souvent ignorées mais qui mériteraient une attention toute particulière. Mieux comprendre les tenants et aboutissants du développement de ces technologies permet ainsi de mieux comprendre le rôle qu’elles peuvent jouer au sein d’une vision politique plus large, et apporte de nouvelles clés de lecture sur leurs utilisations.

Une appellation contrôlée

La terminologie en elle-même est trompeuse, puisque sous l’appellation « reconnaissance faciale » se cache une pluralité de technologies, chacune soulevant ses propres problématiques. Les deux applications les plus communes sont cependant les technologies de « vérification », qui compare une photo donnée à une nouvelle image de personne (comme les nouveaux portiques de douanes comparant la photo du passeport à celle de la personne se présentant à la caméra), ainsi que les technologies « d’identification » qui comparent des images de personnes captées à de très grandes bases de données, dans le but de pouvoir associer une identité à chaque personne apparaissant, permettant par exemple d’identifier tous les individus présents dans un espace public donné. Cependant, avant même d’arriver à des systèmes utilisables dans de telles situations, plusieurs briques technologiques sont nécessaires afin de permettre aux images et donc aux visages d’êtres « lus » correctement.

La possibilité de repérer laquelle des formes apparaissant sur une photo représente un visage, ou, au sein de ce même visage, où en sont situées les différentes parties (comme le nez, la bouche, les yeux, même les cheveux etc.), sont autant de bases techniques qui peuvent être utilisées non seulement pour des systèmes de surveillance à grande échelle, mais aussi pour des applications plus ludiques, telles que l’apposition de filtres qui nous font prendre l’apparence d’autres êtres vivants, ou bien, plus pernicieuses, comme la création de deepfakes, images qui visent à mettre en scène des personnes dans des contextes que ces dernières n’ont en réalité jamais connu.

Quand bien même certains systèmes pourraient se targuer de « reconnaître » des personnes, il semble important de souligner que ce terme laisse la place à un certain degré d’interprétation. Que signifie « reconnaître » un visage précisément ? Tout comme le terme désignant la grande famille technologique dans laquelle les systèmes interrogés ici s’inscrivent, « l’intelligence artificielle », force est de constater que la désignation retenue pour la « reconnaissance faciale » tend à donner une fausse idée des technologies qu’elle qualifie. En effet, les systèmes d’IA actuels sont bien loin d’une superintelligence dotée d’une quelconque conscience ou réflexion propre et originale, et ceux de reconnaissance faciale ne sont jamais plus que solutions techniques automatisant des opérations bien définies ayant accès à un très grand nombre de données de visages. Parler de « reconnaissance faciale » comme d’une capacité technologique unique, invoquant un imaginaire de surveillance apparaissant inévitable, pose ainsi le débat dans des termes simplistes qui tient le public à distance de tout engagement concret avec les différents systèmes dont il est en fait question.

On peut souvent entendre parler d’initiatives entendant « ouvrir la boîte noire » de systèmes d’IA. Cependant là encore, cette expression tend à naturaliser une réalité construite et non-inévitable (ou en tout cas en partie) de ces systèmes, à savoir leur opacité. Si une partie du cœur technologique de ces systèmes opère dans une relative opacité, même pour les personnes responsables de leur développement, une grande partie de leur production reste cependant perceptible. Cependant, elle est généralement tenue à l’abri des regards en raison des choix (historiques et politiques) faits par les acteur·ices de la recherche et développement et de l’industrie, qui leur profitent. En d’autres termes la prétendue « boîte noire » obscure des chaînes de production qui, bien que complexes, n’en sont pas moins intelligibles pour quiconque prêt à passer à travers cet écran de fumée entretenu par l’industrie mais aussi la recherche en IA.

Au lieu de reconnaissance faciale, on parlera ainsi de technologies d’analyse faciale (TAFs), qui désignent donc tout système algorithmique entraînés à traiter des images (essentiellement photographiques) de visages humains. En tant que systèmes algorithmiques (« d’IA »), ces derniers reposent sur des techniques d’apprentissage automatique (machine learning) ou d’apprentissage profond (deep learning) qui pour fonctionner nécessitent des volumes considérables de données, qui serviront à entraîner différents algorithmes. À l’heure actuelle, ces très grands ensembles de données nécessitent une étape d’annotation, à travers laquelle un système de classification va être apposé à chaque donnée par un humain via divers outils numériques. Dans l’exemple des ensembles de données destinés au développement de TAFs, il s’agit d’associer chaque photographie de visages humains à une catégorie ; ou bien à en délimiter ses limites au sein de la photo, ou encore d’y pointer ses principaux éléments (ex. : nez, yeux, bouche, etc.). C’est sur cette base que les systèmes, à force d’être confrontés à une très grande quantité d’images annotées, vont apprendre à analyser certaines images.

Le pouvoir des données

Ainsi, les données formant ces grands ensembles vont former une première vision du monde qui servira de base aux modèles futurs. Un système par exemple entraîné sur un ensemble uniquement constitué de photos de visages d’hommes blancs d’âge moyen ne sera ainsi pas équipé pour reconnaître toute personne ne répondant pas à ce descriptif, comme a pu le démontrer Dr. Joy Buolamwini. Chercheuse noire américaine, elle réalise que son visage n’est pas reconnu en tant que tel par les systèmes d’analyse faciale avec lesquels elle travaillait dans le cadre de son doctorat au Media Lab du Massachussetts Institute of Technology. En creusant la question, elle observe une homogénéité flagrante au sein des ensembles de données de systèmes de reconnaissance faciale commercialisés à l’époque, dans leur écrasante majorité figurant des visages de personnes blanches d’expression masculine, elle produit son propre jeu de données qui impose une diversité de couleurs de peau qui n’existait jusqu’alors pas. Il s’agit ainsi de visibiliser aux yeux des systèmes certaines personnes qui resteront complètement invisibles pour d’autres systèmes.

Un autre élément clé des ensembles de données d’entraînement est le type d’annotations utilisées. Ces dernières servent en quelque sorte de sous-titres aux images et sont destinées à diriger le système algorithmique vers les points importants à relever pour lui. Par exemple, un système visant à détecter la présence d’un visage dans le cadre de l’image aura vraisemblablement été entraîné sur une base de données d’images diverses présentant différents visages, sous différents angles, et sur lesquelles une ou plusieurs personne(s) auront manuellement annoté chaque visage présent. Le type d’annotation utilisé permet donc de donner un certain sens aux images, qui se verra par la suite intégré aux systèmes entraînés. Or, la lecture et la compréhension du visage des autres sont un acte hautement construit socialement et culturellement. Ainsi, pour les systèmes cherchant à automatiser l’analyse d’émotions il aura fallu en amont déterminer quelles combinaisons de mouvements de certaines parties du visage exprime telle ou telle émotion. Une opération qui parait difficile pour beaucoup d’entre nous, et qui dépend grandement du contexte socio-culturel. Tout comme le type de données utilisées, la manière dont ces données vont être annotées aura de lourdes conséquences sur la lecture que les systèmes entraînés auront du monde.

Par ailleurs, l’annotation se fait manuellement. Pour des ensembles pouvant souvent compter des millions de données, ce travail est rapidement apparu comme présentant un coût considérable pour quiconque souhaiterait en construire. Aussi, beaucoup d’équipes au sein de laboratoires publics comme privés souvent basés en Europe ou en Amérique du Nord, ont commencé à délocaliser ce travail d’annotation vers divers pays du Sud global. Ce besoin grandissant en jeux de données a ainsi donné naissance à une industrie qui propose du travail extrêmement précaire à des personnes qui l’acceptent souvent par manque d’alternatives. Ce n’est ainsi pas une boîte noire mais plutôt un iceberg qui semble mieux illustrer l’IA actuelle, la partie immergée étant tout simplement située loin des regards que captent les start-ups et autres grands groupes du secteur technologique.

Donner ses données

Ainsi, une précondition essentielle à la construction de ce type de technologies est l’accès à un volume considérable de données. Pour développer des systèmes d’analyse faciale, il faut donc collecter de vastes quantités de photos de différentes personnes. Les ancêtres des TAFs actuelles étaient souvent entraînés sur des images représentant des proches ou membres des équipes développant les systèmes (généralement tous des hommes blancs, instaurant une norme qui fut longtemps reproduite). Cependant, ces derniers étant devenus de plus en plus gourmands en données au fil de leur évolution, de nouvelles sources d’images furent bientôt nécessaires. L’Internet offrit une solution facile à ce problème. Le contenu partagé par les internautes, comme les photos-souvenirs, selfies, et autre contenu culturel, sur des sites tels que Flickr ou IMDb, ou des plateformes de réseaux sociaux, fut dans un premier temps clé pour propulser la constitution de premiers vastes ensembles de données de visages, permettant l’essor du développement de tels systèmes. De nombreux grands ensembles de données se sont ainsi multipliés sur des sites spécialisés en accès libre, chacun offrant différents niveaux de transparence quant à l’origine des données utilisées.

Les grands groupes technologiques, notamment ceux opérant certains des réseaux sociaux les plus utilisés, ont quant à eux tendance à entretenir une certaine opacité vis-à-vis des ensembles de données qu’ils détiennent. Si la réalité de leur R&D dans le domaine de l’analyse faciale reste inconnue, leurs produits attestent cependant bien de son existence : comme par exemple les options de « tagging » plus ou moins automatisées que proposent diverses applications dans le but de faciliter le classement des photos notamment en fonction des personnes y figurant. Il apparaît assez clair que les entreprises derrière les grandes plateformes de réseaux sociaux actuelles se sont rapidement positionnées avantageusement dans le secteur de la recherche en IA, entre autres grâce au volume gigantesque de données auxquelles elles avaient accès via leurs produits technologiques, telles que des selfies ou autres photos de vacances partagées. En d’autres termes, nos portraits partagés et accumulés sur divers pages en ligne sont en partie responsables de l’explosion des TAFs, bien qu’en partie seulement. Cependant, cette captation considérable de données qui à terme pourraient se voir intégrées à de pareils ensembles d’entraînement est aujourd’hui une réalité.

Aussi, ce qu’il faut retenir de l’influence des ensembles de données sur l’utilisation des systèmes qui en découleront, c’est bien la spécificité de ces derniers. Selon les données qui ont servi à les entrainer, ils seront en effet plus ou moins performants sur un segment plus ou moins grand de la population. En d’autres termes, plus les futurs systèmes sont censés avoir une utilisation étendue, dans des espaces où ils devront analyser des visages de toute sorte de personnes (comme la plupart des espaces virtuels, ou publics tels que les rues de grandes villes), plus les bases de données nécessaires se doivent d’être vaste. Aussi, la diffusion de ce type de technologies induit avant tout une production et une collecte de données intensive.

La fin justifie les moyens ?

Cette dernière ne se limite d’ailleurs pas aux ensembles de données d’entraînement initiaux (ou vérités de terrain), mais peuvent être également destinée aux jeux de données sur la base desquels des systèmes entraînés pourront identifier des personnes. Afin de se perfectionner continuellement, les données récoltées au cours des utilisations de ces technologies pourront par ailleurs permettre d’en évaluer et améliorer la performance en permanence. Parmi les exemples les plus extrêmes de collecte de données faciales inclut la collecte systématique de visages (capture photographique) de personnes palestiniennes par les forces israéliennes, ces données ont par la suite permis de contrôler la circulation des palestien·nes via ces systèmes, menant certain·es à parler d’apartheid automatisé. Dans ce contexte colonial déjà violent, les récentes opérations militaires de l’armée israélienne à Gaza et son résultat catastrophique pour les civil·es gazaoui·es, doivent être vues comme la continuation du même projet politique que servait déjà l’utilisation généralisée de TAFs.

L’imposition de la collecte d’empreintes biométriques est également de plus en plus fréquente à certaines frontières (comme celles de l’UE), avec des objectifs tels que la fluidification de la distribution d’aide alimentaire au sein des camps situés sur les îles grecques par exemple. On ne peut s’empêcher cependant d’y voir un premier pas vers l’automatisation de la surveillance et le contrôle des personnes exilées au cours de leur parcours migratoire. Il parait essentiel de souligner les dynamiques de pouvoir qui régissent ces déploiements technologiques, où des groupes déjà extrêmement vulnérabilisés se voient contraints de se soumettre à ce type de systèmes.

Dans tous ces exemples, les TAFs répondent moins à un besoin démontré de sécurité (leur efficacité quant à l’amélioration de la sécurité restant de toute façon à prouver), qu’à une volonté politique appuyée par une industrie en pleine expansion. L’accès à des données de personnes présentes dans l’espace public, ou dans des fichiers préétablis sont autant d’opportunité pour des entreprises telles que les étatsuniennes Clearview ou Palantir, ou l’israélienne AnyVision, de gagner en compétitivité tout en accumulant toujours plus de données biométriques sur des personnes sans leur réel consentement.

Dans un contexte qui n’est évidemment pas comparable, ces technologies se sont aussi vues progressivement intégrées à divers procédés judiciaires ou policiers en France, qui s’est progressivement imposée comme un des pays européens les plus avides de ce type de systèmes. Si la collecte et l’utilisation de données biométriques reste encadrées, elles se sont progressivement intensifiées dernières années. Le fichier TAJ (Traitement d’Antécédents Judiciaires) par exemple, rassemblant les profils de personnes mises en cause dans le cadre d’un crime ou délit, s’est vu investi comme terrain d’essai pour certaines TAFs qui viseraient à pouvoir identifier certaines de ces personnes dans l’espace public. La récente « loi JO » adoptée par le gouvernement français, bien que n’incluant pas de traitement de données faciales, permet cependant aux entreprises développant des systèmes de vidéosurveillance algorithmique de tester leurs systèmes sur les flux de vidéosurveillance des caméras déjà déployées à travers l’espace public, et ce jusqu’en 2025.

Ces exemples montrent bien l’articulation nécessaire entre la collecte des visages dans un premier temps, qui s’accompagne dans un second temps de l’implémentation de technologies d’analyse faciale. En étant la condition sine qua non de l’utilisation de ces technologies, la collecte intensive voire systématique de données faciales mène à une accumulation et concentration de pouvoir qui profite largement aux entreprises développant ces systèmes. Ce n’est donc pas une coïncidence si les premiers essais, ou les phases de test de ces déploiements technologiques se déroulent dans des contextes bénéficiant de trop peu d’attention médiatique, ou de transparence politique. Ainsi, la question n’est pas simplement de débattre le déploiement ou l’interdiction de ces technologies. Avant même de parler de « reconnaissance faciale », une meilleure problématisation de ces systèmes doit nous mener à intégrer à ces discussions les enjeux essentiels que représentent la captation et l’utilisation de nos données faciales. Avant même de savoir si nous acceptons que ces technologies soient utilisées dans tel ou tel cas de figure, il apparaît essentiel de comprendre quel type de données ont servi à les entrainer, ainsi que les conditions de collecte de ces dernières. L’existence même d’un système fonctionnel induit en effet une accumulation de données et des chaînes de production mondialisée qui témoignent déjà d’une normalisation de certaines pratiques technologiques de surveillance s’inscrivant dans une vision politique bien précise.


Assia Wirth

Sociologue, Doctorante en sociologie à l'ENS Paris-Saclay