La recherche « deepLisée » ou pourquoi il faut se méfier de la traduction automatique
Dans le monde de la recherche, l’exigence croissante de l’internationalisation de la diffusion des résultats scientifiques a eu pour conséquence de faire émerger un métier : celui de la traduction spécialisée. Les traducteurs et traductrices exerçant ce métier, dont je fais partie, ont souvent suivi des études longues dans les disciplines dans lesquels ils et elles travaillent, avec un doctorat ou un master (en sciences expérimentales, en sciences sociales) ; ils et elles associent nécessairement une compétence disciplinaire avancée avec des compétences linguistiques natives[1].
C’est peut-être en raison de nos spécialisations et des exigences des chercheurs et chercheuses avec qui nous travaillons que nous avons été jusqu’alors relativement protégés des évolutions technologiques dans notre métier. Mais dans un contexte touché de plein fouet par les innovations apportées par l’intelligence artificielle (ChatGPT, et autres outils du même acabit) un changement semble se profiler, et un nombre croissant de chercheurs, par manque de temps ou par contrainte budgétaire – voire les deux – ont recours à des outils de traduction automatique avec des résultats dont ils ne semblent pas toujours se méfier. Car, in fine, on peut se demander si seuls les professionnels de la traduction pâtiront de ces nouvelles pratiques qui, au premier abord, paraissent comme une panacée.
La traduction automatique – redresseur d’inégalités ?
La domination de l’anglais comme lingua franca dans les sciences humaines et sociales constitue évidemment un obstacle bien connu à la diffusion et à la visibilité de la recherche non-anglophone[2]. Ceci implique que les chercheurs se retrouvent face à une pression importante, pour ne pas dire une exigence, de publier en anglais pour pouvoir progresser dans leurs carrières francophones. Or, il est évident que ces barrières linguistiques ont des conséquences en termes de temps (on peut mettre 50 % plus de temps à lire un article, ce qui vaudrait 19 jours de travail par an pour un doctorant[3] !) et de visibilité (en évitant des présentations orales ou des colloques internationaux). Des chercheurs et chercheuses non anglophones ont beaucoup plus de risques de se voir refuser une publication pour des raisons linguistiques (puisqu’il est difficile, en sciences sociales, en anglais comme en français, de faire abstraction de l’éloquence dans l’évaluation du sérieux de la recherche). Évidemment, ces inégalités sont problématiques pour la circulation des idées et pour l’innovation scientifique, mais les « solutions faciles » sous la forme de l’automation ou de l’intelligence artificielle, sont en vérité loin de mériter ce qualificatif.
En raison de ces inégalités d’accès et de diffusion, il serait raisonnable de penser que la traduction automatique neuronale (TAN), comme DeepL par exemple, qui a fait des progrès importants ces dernières années, pourrait faciliter l’accès à la recherche internationale pour les non-anglophones, et être un moyen de diffuser, et de rendre plus visible, la recherche française à l’étranger[4]. Et l’on ne peut pas nier que, dans certaines situations, la TAN peut être un outil intéressant : pour se faire une idée générale du sujet d’un article dans une langue qu’on ne maîtrise pas, par exemple, ou pour écrire des emails conversationnels et idiomatiques, ou encore pour permettre à quelqu’un qui maîtrise déjà les deux langues de retravailler et de perfectionner ses écrits en anglais. Mais au moment où il semble avoir un engouement pour ces technologies dans les médias, il me paraît important, en tant que traductrice professionnelle et chercheuse en sciences sociales, de rappeler leurs limites.
Tout d’abord, l’idée qu’on puisse mettre un article scientifique rédigé en français pour un lectorat français directement dans un outil TAN et qu’il produira tout seul un article équivalent en anglais pour un lectorat anglophone est tout simplement fausse. Il y a une non-équivalence de la culture scientifique entre différents pays et les normes d’écriture et de rhétorique diffèrent en anglais et en français. Par exemple, et pour schématiser, le texte français visera l’éloquence, tandis que l’anglais aura tendance à être plus succinct et direct. Ensuite, les « peer reviewers[5] » anglophones refusent souvent des articles non seulement pour des raisons purement linguistiques mais aussi lorsque la culture académique, les références bibliographiques, la structure de l’article leur paraissent « étrangère[6] ». Une traduction « automatique » est loin de pouvoir faire ce travail d’accompagnement qu’un traducteur spécialisé pourra faire sur ce point, et partir du postulat que c’est possible est illusoire.
Il faut également compter avec des spécificités disciplinaires. Les sciences humaines et sociales sont des disciplines qui prennent l’utilisation de la langue au sérieux. En général, en français le style importe dans la rédaction d’un texte à publier, les mots sont choisis avec soin, chacun est pesé. Il est donc très étonnant que tout cela puisse subitement ne plus avoir d’importance lorsqu’il s’agit de passer en anglais, et que l’on puisse se contenter d’un résultat qui remplace simplement un mot par un autre, pour un résultat au mieux médiocre.
Cela fait près de 15 ans que je travaille en tant que traductrice spécialisée en sciences humaines et sociales et je constate que je suis de plus en plus sollicitée pour faire de la « relecture » (correction) de textes « écrits en anglais » (sous-entendu avec un logiciel TAN), ce qui suggère qu’il y ait une croyance dans le monde de la recherche que cette technologie est capable de produire des textes qui auraient simplement besoin d’être « relus », comme on relirait un texte écrit par un humain non-natif. À mes yeux, c’est problématique et pour plusieurs raisons.
Cherchez l’erreur….
Pour comprendre pourquoi, il faut avoir une idée du fonctionnement de ces logiciels. La TAN repose sur le calcul de la probabilité qu’un mot se retrouve à côté d’un autre. C’est pour cela que les résultats sont souvent idiomatiques, avec des phrases qui « sonnent juste » pour un lecteur non natif, mais qui, pour un lecteur anglophone, sont parfois étranges et obscures. Pire, puisque le logiciel est programmé pour produire des phrases grammaticalement et syntaxiquement correctes, en assemblant des « bouts » de traduction humaine tirés de ses bases de données[7], ces erreurs sont souvent difficiles à identifier.
Un chercheur francophone qui lira son texte après l’avoir passé dans un de ces logiciels sera certainement plutôt content du résultat. Il trouvera peut-être que cela « sonne mieux » que s’il l’avait rédigé en anglais. Et puisque le logiciel calque sa traduction sur la structure de la phrase en français, son texte lui sera familier, l’auteur reconnaîtra sa structure et sera rassuré : la confiance sera établie. Mais à moins d’être déjà très à l’aise dans la langue de traduction, non seulement ce chercheur ne verra pas les différences de culture scientifique mentionnées ci-dessus et l’impact sur le texte d’une transposition trop directe en anglais, mais il ne percevra pas non plus les erreurs de traduction qui sont inévitablement cachées derrière de belles phrases de la machine.
Le professeur Alan Melby, Vice-Président de la Fédération Internationale des Traducteurs, a utilisé l’analogie des « cookies empoisonnés » pour décrire ces erreurs invisibles mais inévitables qui sont générées par la traduction automatique[8]. Selon lui, les textes produits par la traduction automatique sont comme une belle assiette de gâteaux appétissants, mais dont certains sont en fait des leurres… empoisonnés par le fonctionnement du logiciel. Il revient alors au « relecteur» de distinguer les uns des autres, alors que la ressemblance est troublante. Ce travail porte le nom « post-édition[9] » mais consiste en réalité en une révision bilingue, une vérification phrase par phrase que le sens n’a pas été perdu et que l’anglais est correct, autrement dit, un travail de concordance des deux textes. Ce travail est chronophage et cognitivement épuisant[10] (on peut même défendre l’idée qu’il est plus épuisant que le travail de traduction classique[11]), et de toute évidence, il est tout simplement impossible sans l’accès au texte dans la langue d’origine. Or, quand on demande une « simple relecture » d’un texte « DeepLisé », c’est bien cela qu’on demande : une relecture bilingue sans texte source.
Pour comprendre la différence entre le travail de relecture sur un texte écrit par un humain qui ne maîtrise pas parfaitement l’anglais et un texte produit avec un outil TAN, on peut utiliser l’analogie de son cousin IA, le producteur d’images Midjourney, par rapport à une photo argentique classique. Dans ce dernier cas, on verra tout de suite si la photo est floue, ou bien sur- ou sous-exposée. Par contraste, l’image de Midjourney n’aura pas ces défauts ; au premier regard, elle semblera convaincante, mais ensuite, en regardant de plus près, on remarquera des problèmes de perspective, de profondeur de champs, ou de détails à la fois étranges et dérangeants, des doigts qui manquent, etc. La même chose s’observe avec ChatGPT : les résultats sont bluffants, sauf qu’il s’agit parfois d’« hallucinations[12] » sans fondement factuel, dont l’identification n’est possible que si l’on connaît déjà la réponse.
Il en va de même pour les traductions automatiques en anglais. Un texte écrit par un humain dans un anglais imparfait comportera des fautes d’orthographe et de syntaxe : même les auteurs les plus à l’aise inverseront quelques prépositions, par exemple. À l’inverse, les phrases produites par la traduction automatique sont très « lisses », la syntaxe est souvent correcte, il n’y a jamais de problèmes de prépositions, ou de fautes d’orthographe. Cependant, très souvent ces phrases font « presque sens », c’est-à-dire qu’elles peuvent faire sens du point de vue de la grammaire mais sont en réalité des contre-sens qui nuisent profondément à la compréhension. Par exemple, pour traduire des « politiques mortifères », le logiciel propose « mortifying policies » (des politiques très embarrassantes) ce qui pourrait être risible si les conséquences n’étaient pas si graves pour le texte, et pour l’auteur…
Pire, le logiciel se concentre sur la phrase, et il est donc incapable de « comprendre » le texte ou même de le considérer comme un tout ; le texte produit en anglais manque très souvent de cohérence globale, voire de liens entre les phrases. Le logiciel ne comprendra pas, par exemple, que la chercheuse présentée en début de paragraphe est l’autrice des textes discutés plus bas et se trompera de pronom, en proposant « he » and « his text » : le biais genré de ces logiciels est par ailleurs non négligeable.
Un traducteur humain évite ces erreurs par la compréhension globale du texte. Il va pouvoir comprendre la cohérence entre les termes, les concepts et les références d’un passage à l’autre. De surcroît, travaillant dans une discipline qu’il maîtrise et dans de bonnes conditions de travail, il lira des textes clés de la bibliographie de l’auteur pour être sûr du champ lexical de destination et, par ailleurs, reconnaîtra que certains éléments du vocabulaire situent l’auteur dans un champ foucaldien ou bourdieusien, par exemple, et les traduira en conséquence. Évidemment, la TAN en est incapable.
L’outil calculera simplement la probabilité que le mot x se trouve à côté du mot y. Mais quand il ne connaît pas un mot, il peut simplement l’omettre ou le traduire littéralement. Ainsi le logiciel ne distinguera-t-il pas nécessairement un nom de famille d’un nom commun et le traduira, produisant des effets souvent très surprenants (le nom de la sociologue Annabelle Allouch devient ainsi Annabelle Aloof, par exemple). Ou bien, pour des raisons mystérieuses, le logiciel peut laisser un terme dans la langue source (problème qui concerne surtout les noms propres, les noms de mouvements, de périodes ou de dynasties, par exemple, dont l’orthographe diffère souvent entre les langues). Parfois, il pourra traduire le même terme par plusieurs termes différents au sein d’un même paragraphe, ne reconnaissant pas qu’il s’agit du même sujet. Ou au contraire il pourra traduire deux termes différents par la même expression : concernant les « tensions et tiraillements provoqués par cette situation » en français, la traduction automatique propose « tensions and tensions caused by this situation » en anglais…
Et bien que le point fort de ces logiciels par rapport à leurs prédécesseurs soit censé être d’éviter des faux amis et des calques erronés, il faudrait noter quand même qu’une « association de fidèles » n’est pas une « faithful association » (une association fidèle), un « air de famille » n’est pas un « family affair » ni un « affair of family » (mais une « resemblance », en l’occurrence pour parler de cas d’étude similaires, donc rien à voir avec une famille biologique) et « un signe de départ » n’est pas un « sign of departure » (mais plutôt ici, un signe de début). Parfois, comme le «marqueur de position » qui devient « a positioning marker », ces calques n’ont simplement aucun sens en anglais sans l’aide du français à côté pour comprendre la signification. Entre les « non-sens » et les contresens, donc, un lecteur anglophone aura du mal à suivre le texte.
Pour le français « Si des recherches sérieuses sont encore nécessaires pour confirmer ces résultats… », le logiciel propose une formulation qui n’est tout simplement pas correcte en anglais : « If serious researches are still needed to confirm these results… ». Ici on voit non seulement la traduction quasi systématique de « si » par « if », qui est problématique car souvent utilisé pour le conditionnel, mais aussi la fâcheuse tendance à pluraliser des noms abstraits, en commençant par la recherche : on peut pluraliser des études, des projets, des investigations, des sondages, mais la recherche n’est jamais « researches ».
Si on prend un exemple plus long, on voit que l’impression de fluidité est atteinte au détriment du registre approprié. De la phrase, « Ici, l’entrée dans l’objet ne s’effectue pas par l’évocation officielle d’une période historique dont il s’agirait d’étudier le traitement mémoriel par l’État et le politique », on obtient, « Here, we don’t enter into the subject through the official evocation of a historical period, whose memorial treatment by the state and politics we’d like to study ». L’utilisation de « we’d like to study » est bien trop informelle pour le contexte universitaire et évoque plutôt une copie d’élève. « Enter into the subject » est également maladroit (on pourrait préférer « the approach here does not focus on »), mais plus grave est l’ambiguïté dans « the official evocation », puisqu’en anglais « to evoke » veut dire « mentionner » voire « susciter une construction imaginée », alors qu’ici il s’agit de la façon dont une période est formellement présentée et non pas imaginée.
Plus le style est littéraire, imagé ou poétique, plus le sujet est complexe (avec de surcroît des phrases longues et complexes), spécialisé (mobilisant un vocabulaire disciplinaire spécifique), avec un registre spécifique (des citations d’enquêtés en sociologie par exemple, ou des archives en histoire), plus la traduction automatique sera risquée. Les citations traduites dans le texte source posent également problème puisque le logiciel va simplement les retraduire, alors qu’un traducteur spécialisé (par déontologie et pour des questions de droits d’auteur) trouverait et citerait les originaux en bonne et due forme.
On voit donc que les conséquences de ces phrases « fluides » peuvent être graves pour la compréhension, mais surtout que, sans accès au texte source, la « révision » de ces phrases ressemble à un jeu de devinettes. On voit aussi que, tout comme son cousin ChatGPT a tendance à inventer, ce n’est pas parce que DeepL propose une traduction que celle-ci est bonne, ni même possible.
Le pire est bien sûr que plus le texte semble fluide, plus il est facile pour un chercheur non-natif de « faire confiance » à cette traduction. Or, comme on vient de le voir, on fait confiance ici à ses risques et périls. Car si le chercheur non-anglophone se contente de ce qui est proposé par la machine, le lecteur anglophone auquel le texte est destiné, se trouvera, lui, face à des phrases obscures, et ne cherchera peut-être pas à comprendre… Évidemment, ce n’est pas seulement la circulation des idées qui est en jeu ici, mais aussi la réputation des chercheurs français et de leurs institutions.
Une confiance toute humaine…
Sans surprise, on ne peut pas faire confiance à la machine, mais évidemment toutes les traductions humaines ne se valent pas : il peut y en avoir de bonnes comme de mauvaises. Ceci est exacerbé par le fait que, depuis quelques années, beaucoup d’universités ont introduit des systèmes d’appels d’offres pour les traductions, ce qui a favorisé l’émergence des grandes agences de traduction généralistes, des « language service providers », et a fortement pénalisé les traducteurs indépendants spécialisés[13]. De ce fait, de nombreux chercheurs se sont vu refuser la possibilité de choisir leurs traducteurs (parfois des individus avec qui ils collaboraient depuis des années et avec lesquels un réel compagnonnage professionnel avait pu s’établir) et de voir leurs textes traduits par des non-spécialistes avec lesquels ils n’ont pas de contact direct. Cela constitue bien sûr une forme d’inégalité en soi, car le rapport entre traducteur et chercheur est important pour la qualité du résultat.
C’est à travers cette relation, constituée d’allers-retours sur le texte, que l’on pourra échanger sur le fond et sur la forme, réfléchir à des références, des exemples qui seraient pertinents pour un lecteur anglophone, et soigner la façon dont le texte va être lu et reçu en anglais. Et de cette communication vient un texte qui porte réellement le sens de la recherche en question vers un lecteur. De très nombreuses fois j’ai entendu, à travers des discussions avec un chercheur autour de son texte, que la traduction lui a fait réfléchir différemment à son objet de recherche, l’a amené à se poser des questions qu’il ne se serait pas posées autrement. Négliger cette étape d’échange, ou l’écarter, par des soucis d’« optimisation » ou de « simplification », que cela soit par des politiques d’agences ou d’automatisation – dans les deux cas certainement le résultat des pressions budgétaires – aura des conséquences sur la qualité du résultat. En effet, si la traduction automatique sert à faire travailler des traducteurs non-spécialistes deux fois plus vite pour deux fois moins d’argent, il ne faut pas s’étonner que le résultat soit mauvais.
Il ne faut non plus pas s’attendre à ce que ces logiciels réduisent le coût de la traduction à zéro, puisque la baisse de tarif doit refléter le temps réellement économisé par le traducteur[14]. Car si celui-ci ne peut pas faire confiance à la traduction des termes techniques, noms de mouvements, périodes historiques, ou acteurs clés proposés par la machine, par exemple, alors il faudra faire ces recherches quand même, et cela prend du temps (d’où l’intérêt de travailler avec un spécialiste qui reconnaîtra ces erreurs produites par la machine). Donc il n’est pas invraisemblable que la révision d’une traduction automatique soit in fine plus onéreuse. De fait, cela peut être bien plus compliqué qu’une correction monolingue. Une telle correction peut même s’avérer aussi chère qu’une traduction humaine si la qualité de l’automatisme est très mauvaise parce que le sujet du texte, ou le vocabulaire employé, est moins fréquent dans la base de données, et que le texte nécessite beaucoup de réécriture. Dans ce cas, le résultat sera certainement meilleur en commençant ex nihilo de la langue d’origine.
Il faut aussi prendre en compte que si aujourd’hui les résultats finaux de ces révisions de textes de recherche (post-editing) sont de qualité, c’est parce qu’ils sont (encore) faits par des traducteurs qui ont eux-mêmes un parcours de recherche, et que nous gardons nos exigences en termes de qualité linguistique et scientifique. Mais est-ce que ces exigences seront les mêmes pour tous ceux qui sont formés aujourd’hui à faire essentiellement de la post-édition et n’ont pas connu un monde où on peut prendre le temps de douter, de chercher, et de réfléchir aux mots ? Surtout, comment des post-éditeurs non-spécialistes sauront-ils reconnaître et corriger les erreurs de fond introduites par la machine, si on ne les forme pas à une spécialisation disciplinaire, et s’ils n’ont plus le temps pour aller chercher les traductions établies des termes clés ? De surcroît, ces problèmes risquent de s’exacerber au fur et à mesure que les logiciels incorporent leurs propres « écrits » dans leurs bases de données, qu’ils se nourrissent de leurs propres « cookies empoisonnés »…
Logiquement, les chercheurs qui ont besoin de publier en anglais peuvent être sensibles à l’enjeu de la qualité puisque ce que ce sont leurs textes et leur réputation qui sont en jeu, mais malheureusement ce n’est pas souvent eux qui financent les traductions, ni eux qui prennent les décisions de préférer les agences ou les outils automatiques. Toutefois, comme de nombreux exemples l’attestent, il est possible de s’opposer aux évolutions contestables dans le monde de l’enseignement et de la recherche où le profit et la rentabilité n’ont jamais été les seuls moteurs. Privilégier la machine et automatiser un travail intellectuel n’est peut-être pas une évolution inéluctable : il est possible de défendre des choix permettant un travail humain de qualité. On pourrait par exemple choisir d’allouer des budgets pour la recherche qui permettrait de revenir à une internalisation de la traduction – au sein du CNRS par exemple (la fiche de poste existe déjà), ou des laboratoires, des facultés – ce qui permettrait d’entretenir une spécialisation disciplinaire qui est fondamentale pour la qualité, tout en fournissant aux traducteurs des conditions de travail raisonnables. Cela serait certainement une bonne façon de s’assurer de la qualité de « l’internationalisation » tant recherchée, quand bien même elle impliquerait la post-édition.
Un avenir incertain…
So what ? Un métier, celui des traducteurs universitaires spécialisés, risque de disparaître.
Autour de moi je vois beaucoup de questionnements sur la viabilité de ce métier, autant en termes financiers qu’intellectuels. À l’avenir, ceux qui, à la fin de leur thèse, cherchent une autre voie que la recherche et enseignement ne choisiront plus celle-ci. Ils ne seront pas attirés par un métier où tout ce qui est intellectuel a été évacué… et où on demande aux humains de travailler comme les machines pour une rémunération dérisoire.
Mais cet avenir devrait soulever aussi des questions pour les chercheurs, qui vont toujours être aussi soumis à la pression de publier en anglais, et qui auront toujours autant besoin de faire confiance à autrui dans la traduction de leurs textes. Or, de mauvaises traductions risquent de ne pas être comprises, donc ne pas être citées, et la réputation du chercheur à l’étranger est engagée. Si on cherche réellement à communiquer, à dialoguer, à être lu et entendu en anglais, une vraie traduction, un vrai accompagnement humain, semblent indispensables.