Numérique

Rendre sa voix plus souriante : deepfakes et filtres vocaux émotionnels

Chercheuse en sciences cognitives

La possibilité de manipuler l’expression de nos émotions de manière artificielle et réaliste permet d’imaginer un éventail d’applications aussi vaste que clivant. Face à une étonnante acceptabilité des filtres de transformation de voix dans la population générale, il est légitime et même nécessaire de se demander ce à quoi pourrait ressembler un monde au sein duquel il nous serait possible de contrôler algorithmiquement les émotions que l’on montre, afin d’en assurer un usage consenti, et éclairé.

«Hôtel du temps » est la nouvelle émission née de l’imagination de Thierry Ardisson dont l’ambition est de ressusciter des légendes disparues pour leur faire raconter leur vie. Mais comment un tel miracle est-il possible ? Grâce au deepfake ! Plus précisément, à partir du système Voice cloning, qui permet de convertir la voix d’un acteur en celle de la légende disparue avec laquelle le présentateur souhaite dialoguer. L’émission entend utiliser la technique du deepfake pour « spectaculariser la culture et rendre le savoir captivant ». Le premier épisode de l’émission, consacré à Dalida, a suscité un grand nombre de réactions, dont certaines critiques du projet même de l’émission, auxquelles la chaine a opposé un argumentaire rationalisant. Selon l’équipe de production, toutes les paroles prononcées par Dalida sont le fruit d’un travail documentaire minutieux et ont été dites du vivant de la célébrité.

publicité

Finalement, l’unique liberté artistique prise par l’équipe relèverait de ce qu’on peut appeler le « paralinguistique » – les intonations de la voix et les émotions qui s’y laissent entendre. Et c’est bien d’ailleurs ce qui est recherché par le procédé technique utilisé : conférer de l’émotion au propos.

Créer algorithmiquement le contenu émotionnel d’un discours ne serait donc pas sujet à questionnement ?

Les émotions revêtent une fonction particulière pour les êtres humains – c’est d’ailleurs l’objet d’une récente analyse pointue de Louis Quéré dans les colonnes d’AOC. Leurs expressions faciales et vocales procèdent d’une longue évolution et sont étudiées selon une perspective psycho-évolutionniste en tant que signaux, c’est-à-dire des manifestations comportementales ayant pour objet d’informer et manipuler autrui sur l’état interne d’une personne[1]. En modulant continuellement nos muscles faciaux ainsi que les structures phonatoires et articulatoires de notre appareil vocal, nous fournissons un second canal, non linguistique, à nos conversations quotidienn


[1] Charles Darwin, The expression of the emotions in man and animals, 1872, réédition de Oxford University Press, 1998 ; Mark L. Knapp, Judith A. Hall, et Terrence G. Horgan, Nonverbal communication in human interaction, Cengage Learning, 2013.

[2] Rachael E. Jack, Wei Sun, Ioannis Delis, Oliver GB Garrod, and Philippe G. Schyns, « Four not six: Revealing culturally common facial expressions of emotion », Journal of Experimental Psychology: General, 145(6):708, 2016 ; Anne Bachorowski et Michael J Owren, « Vocal expression of emotion: Acoustic properties of speech are associated with emotional intensity and context », Psychological science, 6(4):219–224, 1995.

[3] Nikolaas N. Oosterhof et Alexander Todorov, « The functional basis of face evaluation », Proceedings of the National Academy of Sciences, 105(32):11087–11092, 2008 ; Emmanuel Ponsot, Pablo Arias et Jean-Julien Aucouturier, « Uncovering mental representations of smiled speech using reverse correlation », Journal of the Acoustical Society of America, 143, 2018.

[4] Pio E. Ricci Bitti, Luisa Bonfiglioli, Paolo Melani, Roberto Caterina et Pierluigi Garotti, « Expression and communication of doubt/uncertainty through facial expression » Ricerche di Pedagogia e Didattica. Journal of Theories and Research in Education, 9(1):159–177, 2014 ; Louise Goupil, Emmanuel Ponsot, Daniel Richardson, Gabriel Reyes et Jean-Julien Aucouturier, « Listeners’ perceptions of the certainty and honesty of a speaker are associated with a common prosodic signature », Nature communications, 12(1):1–17, 2021.

[5] Lisa Feldman Barrett, « Are Emotions Natural Kinds? », Perspectives on Psychological Science, 1(1):28-58, 2006.

[6] Rachael E. Jack, Oliver GB Garrod, Hui Yu, Roberto Caldara et Philippe G. Schyns, « Facial expressions of emotion are not culturally universal », Proceedings of the National Academy of Sciences, 109(19):7241–7244, 2012 ; Lou Safra, Coralie Chevallier, Julie Grezes et Nicolas Baumard, « Tracking historical change

Nadia Guerouaou

Chercheuse en sciences cognitives, Doctorante en neurosciences affectives, Enseignante de neuroéthique à l'Université de Lille

Notes

[1] Charles Darwin, The expression of the emotions in man and animals, 1872, réédition de Oxford University Press, 1998 ; Mark L. Knapp, Judith A. Hall, et Terrence G. Horgan, Nonverbal communication in human interaction, Cengage Learning, 2013.

[2] Rachael E. Jack, Wei Sun, Ioannis Delis, Oliver GB Garrod, and Philippe G. Schyns, « Four not six: Revealing culturally common facial expressions of emotion », Journal of Experimental Psychology: General, 145(6):708, 2016 ; Anne Bachorowski et Michael J Owren, « Vocal expression of emotion: Acoustic properties of speech are associated with emotional intensity and context », Psychological science, 6(4):219–224, 1995.

[3] Nikolaas N. Oosterhof et Alexander Todorov, « The functional basis of face evaluation », Proceedings of the National Academy of Sciences, 105(32):11087–11092, 2008 ; Emmanuel Ponsot, Pablo Arias et Jean-Julien Aucouturier, « Uncovering mental representations of smiled speech using reverse correlation », Journal of the Acoustical Society of America, 143, 2018.

[4] Pio E. Ricci Bitti, Luisa Bonfiglioli, Paolo Melani, Roberto Caterina et Pierluigi Garotti, « Expression and communication of doubt/uncertainty through facial expression » Ricerche di Pedagogia e Didattica. Journal of Theories and Research in Education, 9(1):159–177, 2014 ; Louise Goupil, Emmanuel Ponsot, Daniel Richardson, Gabriel Reyes et Jean-Julien Aucouturier, « Listeners’ perceptions of the certainty and honesty of a speaker are associated with a common prosodic signature », Nature communications, 12(1):1–17, 2021.

[5] Lisa Feldman Barrett, « Are Emotions Natural Kinds? », Perspectives on Psychological Science, 1(1):28-58, 2006.

[6] Rachael E. Jack, Oliver GB Garrod, Hui Yu, Roberto Caldara et Philippe G. Schyns, « Facial expressions of emotion are not culturally universal », Proceedings of the National Academy of Sciences, 109(19):7241–7244, 2012 ; Lou Safra, Coralie Chevallier, Julie Grezes et Nicolas Baumard, « Tracking historical change