Numérique

De la traduction à la post-édition

Traductrice et enseignante-chercheuse

Les récents progrès des logiciels de traduction automatique neuronale et des intelligences artificielles génératives poussent de plus en plus de lectrices et lecteurs à se satisfaire de résultats approximatifs et médiocres. Il devient donc urgent que les traductrices et traducteurs fassent mieux reconnaître leur indispensable travail de post-édition pour garantir la qualité des textes.

La traduction automatique (TA) a fait des progrès fulgurants ces dernières années, avec l’apparition de la traduction automatique neuronale (TAN) puis celle des intelligences artificielles génératives, créant des espérances folles et des peurs réelles.

publicité

Espérances d’une communication multilingue aisée et bon marché, d’une diffusion multilingue de la science, d’une facilitation des échanges avec des communautés parlant des langues disposant de peu de ressources. Peurs d’une transformation rapide des services de traduction avec diminution du nombre de professionnels pour un volume de traduction toujours croissant, s’accompagnant d’une double perte : perte de qualité des traductions produites et perte de revenus pour les professionnels qui se verraient remplacés par des machines.

Certains langagiers préfèrent parler de prétraduction automatique plutôt que de traduction automatique, soulignant à la fois que le texte est produit par un moteur entraîné sur des algorithmes à la conversion automatique de texte d’un langage à l’autre, que ce produit n’est qu’une étape, et que le texte qui en sort nécessitera un travail qui, loin de s’apparenter à une relecture du texte d’arrivée (texte en langue cible), nécessitera un aller-retour entre celui-ci et le texte de départ (texte en langue source) que seuls les traductaires sont capables de mettre en œuvre.

L’utilisation de réseaux de neurones rend l’opération plus efficace : le moteur de traduction code le texte de départ, fait une série d’opérations algorithmiques à partir des ensembles de textes bilingues sur lesquels il a été entraîné, puis ces opérations sont décodées en un texte dans la langue d’arrivée. Toutefois, un certain travail sur le texte ainsi généré est souvent nécessaire. C’est ce travail, qui consiste à modifier et à corriger si nécessaire un texte résultant d’une TA, que l’on nomme post-édition (PE)[1]. Or, ce nom, comme le verbe décrivant la tâche « post-éditer » et la personne effectuant celle-ci, le « post-éditeur », sont des calques de l’anglais et le produit d’une croyance qui remonte aux années 50, à savoir que l’obtention d’une traduction entièrement automatisée de haute qualité n’était qu’une question de temps et que des humains, pas nécessairement experts, étaient nécessaires pour préparer le texte avant l’insertion dans la machine puis pour « nettoyer » la sortie machine[2].

Soixante-dix ans plus tard, la croyance en la possibilité d’une traduction tout entière automatisée et d’une post-édition passive reste tenace, même si la qualité de la transposition de textes d’une langue à l’autre par les machines n’est pas toujours au rendez-vous et que les risques liés à cette pratique restent élevés. Une enquête récente menée par Amazon Web Services, publiée le 11 janvier 2024, montre que la majorité des textes disponibles sur Internet sont issus de la TA, et sont de mauvaise qualité. À quelques mois d’intervalle, une enquête sur les pratiques de la traduction en Europe montre une utilisation massive des nouvelles technologies et une augmentation croissante de la pratique de post-édition[3].

Dans le secteur académique, comme dans celui de la formation continue, les enseignants ont dû se former très vite à la pratique de la post-édition afin d’adapter leurs cours aux réalités du secteur : un secteur où on s’accommode parfois du good enough, et où a émergé récemment le phénomène controversé des « grades de traduction », fondé sur la notion de fit to purpose. L’adaptation aux besoins du client devenant le critère de sélection d’une traduction, en place de la qualité. Ce que l’on cherche, ce n’est pas un texte parfaitement écrit en langue cible, mais un texte qui réponde à des critères et à des attentes précises : une traduction suffisante pour capter la teneur d’un écrit, ses points principaux, pour des besoins de communication interne, en acceptant des erreurs de sens (grade inférieur); une traduction correcte, compréhensible, où aucune information ne manque ni n’ait été ajoutée, mais qui ne cherche pas un style raffiné (grade intermédiaire) ; ou une traduction qui réponde à des critères de cohérence terminologique, de fidélité du sens et de qualité du style, et qui peut être diffusée en toute sécurité (grade haut). Et, puisque sur le marché de la traduction, un énorme pourcentage des traductions produites le sont de manière automatique avec ou sans post-édition, est apparue plus récemment la notion de « grades de post-édition », à savoir aucune (et nous avons alors affaire à un produit « brut de logiciel »), légère ou superficielle (supposant un toilettage grammatical et orthographique et l’élimination des contre-sens ou des erreurs grossières) et complète (le produit pouvant alors être comparé à une traduction humaine).

L’automaticité peut gagner sur l’inventivité et la diversité langagière.

Devons-nous, en tant que traductaires, adapter nos efforts aux besoins et aux attentes du client, et accepter d’offrir un service et de délivrer un produit tout juste corrects ? N’est-ce pas alors risquer d’être accusé à tort d’avoir fourni un produit non conforme, pouvant nuire durablement à l’image de marque d’une entreprise par exemple, voire affecter jusqu’à la santé de l’utilisateur final, si une fiche produit traduite n’est pas conforme à la fiche originale et comporte des risques pour la santé ? Toutes ces questions sont au cœur de nos métiers de praticiens et d’enseignants : devons-nous enseigner à nos étudiants à s’adapter aux critères demandés par le client et à fournir une traduction approximative, si elle a pour objectif de donner un aperçu d’un dossier ou si son usage se limite à de la communication interne ? Nous touchons là à des questions d’éthique de la profession, de gestion des risques, de responsabilité.

Afin de circonscrire le sujet de cet article, je vais me concentrer sur mon expérience de traductrice du chinois pour l’édition en art et culture et d’enseignante en traduction en premier cycle universitaire.

Dans la combinaison chinois-français, la qualité de la traduction machine, y compris celui des IA génératives (ChatGPT), bien qu’en progrès constant, reste insuffisante et la pratique de la post-édition nécessaire, notamment dans le champ des sciences humaines et la presse. Bien utilisée, cette pratique controversée permet toutefois de gagner du temps pour certaines catégories de textes écrits dans une langue accessible et sans ambiguïté. Elle est aussi présentée par certains éditeurs comme la seule issue possible aux questions de coût de traduction, même si une étude exhaustive sur les coûts de la post-édition et sur l’évaluation qualitative reste à mener[4].

Dans ma pratique, après plusieurs années de test de différents outils de TA gratuits, donc présentant potentiellement des risques de non-respect de la confidentialité, j’ai investi dans une licence professionnelle DeepL pro et j’ai travaillé sur un projet en collaboration avec une collègue chinoise. Nous avons traduit un ouvrage en esthétique de 312 pages, paru aux Presses universitaires de Pékin. J’ai intégré ma licence DeepL pro dans MemoQ, une plateforme de traduction assistée par ordinateur (TAO) qui met à la portée du traductaire tous les outils nécessaires sans avoir à sortir de ce lieu virtuel : dictionnaires, glossaires, mémoires de traduction, corpus documentaire… Dans un outil de TAO, le texte source est segmenté sur la gauche de l’écran et le texte cible est saisi au clavier en face du texte source, segment par segment.

Quand DeepL pro est intégré à MemoQ, le produit de la TA peut être visualisé de deux façons : sur l’extrême-droite de l’écran – on peut alors le consulter lors de la saisie du texte en langue cible – ou bien directement dans la partie droite consacrée à la saisie du texte – on peut ensuite corriger ou non le segment pré-traduit et l’approuver avant de passer au suivant. Ayant testé les deux modes de visualisation, j’ai une forte préférence pour la première, où la TA est là comme une ressource supplémentaire, une source d’inspiration, qui peut être ou ne pas être prise en compte dans l’écrit final.

Lorsqu’on choisit la seconde option, et que la traduction automatique s’inscrit dans l’espace blanc dévoué à saisir le texte en langue cible, il est très difficile ensuite de modifier la syntaxe. Cela demande un travail supplémentaire, à la fois mental – oublier la suggestion et formuler spontanément la phrase en langue cible après lecture de la phrase en langue source – et manuel – effacer la suggestion puis recommencer à saisir du texte. Double effacement donc, sur l’écran mental et sur le clavier. Pour éviter cet effort, le plus simple est parfois d’accepter la phrase telle quelle est construite et de ne changer qu’un mot ou deux. C’est ce que l’on appelle le « biais d’ancrage » : la proposition automatique impose sa marque dans l’esprit du traductaire, ce qui peut conduire à la longue à un formatage de la langue et à un appauvrissement des formulations, d’autant plus si les traductions produites sont réinjectées dans les moteurs de traduction, parallèlement au texte source. Peu à peu, l’automaticité peut gagner sur l’inventivité et la diversité langagière.

Pour un livre sur la critique d’art, qui comporte une grande quantité de références à l’esthétique occidentale comme à l’esthétique chinoise, qui présente des notions complexes et cite des auteurs et des autrices en grand nombre, le résultat de la TA est utile pour avoir une vision d’ensemble mais n’est pas acceptable pour une publication. Il ne rend pas compte des multiples nuances du sujet et ajoute des erreurs grossières. De plus, certaines citations en chinois classique, dont la syntaxe est très différente du chinois moderne, sont très mal gérées par la machine. Les exemples qui suivent sont tirés de la traduction par DeepL de cet ouvrage. Je n’ai choisi que des exemples spécifiques à la langue chinoise.

Le chinois mandarin obéit à une logique combinatoire : du caractère (字) au mot (cí 词) et au syntagme (cízǔ 词组). Il n’y a pas d’espace entre les mots (composés d’un ou de deux caractères, plus rarement de trois caractères et plus). Se pose alors, pour la machine, le problème de la segmentation en mots dans une chaîne écrite. Par ailleurs, il n’y a pas de différence marquée entre la coordination (par ex., wényì 文艺 signifie la littérature et arts) et la détermination (par ex., wénrén 文人 signifie un homme de lettre ou un lettré). En outre, les articles sont absents et les mots invariables (absence de flexion) : absence de marque de temps (verbe), du genre (noms, adjectifs) et du pluriel (noms, adjectifs, verbes). De plus, l’ordonnancement des mots dans la phrase chinoise diffère de celui de la phrase française et un même mot peut avoir des natures grammaticales différentes, ce qui est beaucoup plus rare en français. Les noms propres ne prennent pas de majuscule. Tels sont les traits distinctifs principaux.

Regardons de près le phénomène de segmentation. La phrase měixué juébùnéng chéngwéi fùyōngfēngyǎ zhīxué 美学决不能成为附庸风雅之学 ​traduite par DeepL « l’esthétique ne doit pas devenir une science de l’asservissement​ », signifie en fait : « l’esthétique ne doit pas devenir un domaine réservé à une prétendue élite ». Comment un tel écart de sens est-il possible ? Fùyōngfēngyǎ 附庸风雅 signifie « prendre des airs distingués, se donner un air cultivé »​. Si on décompose cette expression en quatre caractères, fùyōng 附庸 signifie suivre ou s’attacher, tandis que fēngyǎ 风雅 fait référence à la sophistication culturelle, initialement inspirée par les poèmes d’un des plus anciens recueils chinois, le Shījīng 诗经. L’outil automatique a isolé deux caractères alors qu’ils devaient être intégrés dans l’expression à quatre caractères.

Parfois, la machine ne distingue pas les caractères proches. Par exemple, la phrase rénmen de guānzhùdiǎn cóng xíngérshàng de lǐxiǎng guānniàn céngmiàn diēluò dào xíngérxià de rìcháng qǐjū de wùzhìxìng céngmiàn 人们的关注点从形而上的理想观念层面跌落到形而下的日常起居的物质性层面 ​signifie : « l’attention passe du niveau métaphysique des concepts idéaux au niveau physique de la matérialité de la vie quotidienne ». Or, la sortie machine est : « l’attention passant du niveau métaphysique des concepts idéaux au niveau métaphysique de la matérialité de la vie quotidienne.​ » Dans ce cas précis, xíngérshàng 形而上 (en amont des formes visibles) a été confondu avec xíngérxià 形而下 (en aval des formes visibles). L’outil automatique n’a pas distingué les caractères shàng 上 et xià 下 graphiquement proches. Pourtant, le premier signifie vers le haut et le second, vers le bas.

Dernier exemple, la syntaxe chinoise et la syntaxe française sont très différentes et le sujet de la phrase n’est pas toujours rendu efficacement. Dans la phrase suivante, il a même été inversé : yúshì, biàn chūxiàn le chéngshì jūmín huīxié de wénhuà dǐkàng 于是,便出现了城市居民诙谐的文化抵抗. Cette phrase, qui traite des conséquences du brouillard polluant dans les villes, indique l’émergence, au sein des citadins, d’une forme de résistance culturelle pleine d’humour. Le moteur de traduction propose : « Il existe donc une résistance culturelle à l’égard des citadins pleins d’esprit. »​, inversant sujet et objet.

Ces exemples sont multiples. Avec l’aide d’un glossaire personnel des termes esthétiques construit depuis plusieurs années et d’un riche corpus documentaire textuel et visuel que ma collègue et moi avons collecté, j’ai pu traduire le texte chinois original en français en m’inspirant parfois des propositions de la TA. J’ai consacré au total 700 heures à la traduction de l’ouvrage, dont 1/4 pour la recherche documentaire, 2/4 pour la traduction proprement dite et 1/4 pour la révision avec une experte en esthétique et avec ma collègue chinoise. La TA m’a aidée dans le processus de traduction, en accélérant mon rythme de traduction de 20% ; ainsi, j’ai économisé 20% de temps sur les 50% de l’ensemble du processus, c’est-à-dire que j’ai économisé 10% du temps total, soit 70 heures, que j’ai pu réutiliser pour la lecture documentaire notamment. On peut voir néanmoins que la TAN mérite dans ce cas plutôt le nom de pré-traduction et que le travail de modification et de correction du texte qu’elle génère est loin d’être passif et nécessite la connaissance de la langue source, de la langue cible et une forte expertise thématique.

Dans un cours de traduction, l’utilisation de la traduction machine peut permettre à des étudiants qui n’ont pas le niveau requis de comprendre globalement un article de presse et à l’enseignant de tester différents outils pour éveiller leur sens de la langue et leur esprit critique. L’enjeu est de garder la main sur ces outils et de veiller au respect de règles de protection des données et du droit d’auteur, notamment. L’enjeu est également cognitif, et se posent des questions telles que : jusqu’à quand un étudiant sera-t-il capable de corriger un texte traduit par un algorithme, s’il ne s’entraîne pas à le traduire par lui-même ? Et à partir de quand introduire ces outils dans le curriculum des étudiants[5] ?

Relire une traduction machine suppose une solide connaissance de la langue source et de la langue cible.

Mon utilisation de la post-édition en cours remonte à l’année 2019. Depuis quelques mois, j’ai débuté dans mes cours une double expérience. Auprès de mes étudiants d’abord, que j’interroge sur leur utilisation des outils en ligne ; avec mes étudiants sur la qualité des traducteurs automatiques ensuite. Nous comparons le traducteur de Baidu, de Google et de DeepL. Ce dernier remporte la palme, avec toutefois de nombreuses erreurs, approximations et quelques contre-sens notoires.

Nous sommes au deuxième semestre et manifestations des « Gilets jaunes » viennent de débuter en France. Nous traduisons vers le français les comptes-rendus de la presse chinoise sur le sujet. Au titre « Macron a prononcé un discours national : les manifestants peuvent-ils enlever leurs «gilets jaunes»? » proposé par Google traduction, mes étudiantes françaises froncent les sourcils, et expliquent à leurs camarades chinois l’inanité du titre. Curieusement, DeepL ne fait pas beaucoup mieux, et sans doute pire, puisque la sortie machine est : « Le discours national de Macron empêchera-t-il les manifestants d’enlever leur « gilet jaune ? »[6]. Tous les éléments de la phrase sont pourtant présents : les acteurs, le Président français Emmanuel Macron et les manifestants appartenant au mouvement des « Gilets jaunes ». Seulement voilà, la logique n’y est pas, il n’y a pas d’« intelligence » de la phrase. Il semblerait que la question est de savoir si le Président autorisera les manifestants à retirer leur gilet jaune, voire s’il les contraindra à les conserver. Cette phrase, reformulée en connaissant le contexte, devient : « Le discours à la nation du Président Macron incitera-t-il les manifestants à retirer leur gilet jaune ? ».

Depuis quatre ans, les réponses aux questionnaires que je fais remplir en début de cours ont changé et l’usage des moteurs de traduction pour la préparation des devoirs s’est considérablement étendu. Les étudiants s’en servent pour « lire » la presse étrangère, remplir un formulaire pour leurs parents (dans le cas des étudiants chinois), préparer une traduction pour un cours. Ils utilisent très peu les dictionnaires en ligne, jamais les dictionnaires papier, cherchent des réponses immédiates sur Internet à l’aide de mots clés, et utilisent les moteurs de TA à la fois comme dictionnaire, pour trouver le sens d’un mot ; pour vérifier le sens d’une phrase ou d’un segment de phrase ; pour avoir une idée d’un paragraphe avant de proposer leur propre traduction.

Leur confiance dans l’outil n’est pas aveugle, néanmoins, ils acceptent volontiers les solutions proposées et ne corrigent souvent que la surface, polissant çà et là des expressions, sans remettre en cause la structure de la phrase. Si la solution proposée semble correcte, l’étudiant s’en satisfait. S’il traduisait lui-même, il hésiterait entre plusieurs formulations et en choisirait une, mais puisque la machine lui en propose une, il l’accepte, sauf si elle lui semble trop bancale. D’ailleurs, il regarde très peu le texte de départ et uniquement quand le texte d’arrivée lui semble suspect. Or, une erreur peut se tapir sous une phrase à l’apparence grammaticale correcte et au style fluide et les moteurs de plus en plus efficaces en termes de fluidité leur font baisser la garde.

À titre d’exemple, ce texte d’un journaliste chinois qui parcourt les cybercafés sur une longue distance à la recherche de jeunes gens à interroger sur leur passion du jeu vidéo. ChatGPT propose comme traduction d’une des phrases de l’introduction : « Ce jour-là, sous un soleil brulant, j’errais entre les cafés internet tel un fou, cherchant à engager la conversation avec les jeunes garçons et filles qui semblaient impatients de discuter[7]. » La phrase est bien construite, et le sens plausible. Mais la lecture attentive de la phrase chinoise indique que, contrairement aux jeunes gens indifférents voire agacés par cette curiosité intrusive, c’est bien le journaliste qui a soif de discussions, et non les jeunes. Un contre-sens qui n’est pas perçu par tous les étudiants.

Plus grave, dans un texte sur un incident violent qui a eu lieu à Southampton, en Angleterre, où un professeur d’université a été passé à tabac en raison de son origine chinoise, DeepL propose comme équivalent au syntagme yùxí 遇袭 (subir une attaque), le terme « attentat ». À la lecture de ce mot, la plupart des étudiants vont vérifier le texte source et remarquent le glissement de sens, mais certains, notamment les étudiants sinophones en premier cycle, ne relèvent pas l’erreur[8].

En conclusion, relire une traduction machine, cela s’apprend. Cela suppose une solide connaissance de la langue source et de la langue cible, pour vérifier que le texte original correspond au texte traduit, une solide culture générale voire spécialisée, pour percevoir les incohérences et la variation terminologique, une capacité à chercher des références et une documentation fiable, une sensibilité interculturelle pour adapter le contenu aux lecteurs cibles et, plus que tout, un esprit critique acéré par rapport à la sortie machine. Cela suppose que l’exercice de va et vient entre les deux langues soit acquis. Ainsi le savoir-faire en post-édition vient-il s’ajouter aux compétences en traduction, sans lesquelles cette nouvelle pratique manquerait son objectif : celui de favoriser une communication multilingue de qualité, d’offrir de l’information fiable, dans une langue correcte, voire élégante et créative.


[1] Voir la norme ISO 18587 :2017 (fr). Certaines définitions incluent la traduction automatique de la parole dans la TA. Toutefois, dans le présent article, nous ne traiterons que de la traduction automatique de texte.

[2] Lucas Nunes Vieira, « Post-Editing of Machine Translation » In Minako O’Hagan, The Routledge Handbook of Translation and Technology, pp. 319-335, 2019. Sur la pratique de la PE, voir les articles d’Anne-Marie Robert ; voir aussi le numéro spécial de la revue de l’OTTIAQ (Ordre des traducteurs et des terminologues du Quebec).

[3] Voir PowerPoint Presentation; et pour la France Présentation SFT et L’ATLF a interrogé ses adhérents sur la post-édition.

[4] Voir l’étude : Écrire en langues. Entre traduction automatique et hégémonie globish, le multilinguisme comme horizon réaliste pour les revues de sciences humaines et sociales et le projet Operas avec son volet français.

[5] Nicolas Froeliger, Claire Larsonneur et Giuseppe Sofo,Traduction humaine et traitement automatique des langues, vers un nouveau consensus ?, Edizioni Ca’ Foscari, 2023.

[6] mǎ kèlóng fābiǎo quánguó jiǎnghuà, néng shuōfú shìwēizhě men tuōxià « huángbèixīn » a马克龙发表全国讲话,能说服示威者们脱下 « 黄背心 » 吗? (people.com.cn) Renmin wang 人民网 (Publié le 11/12/2018). Tous les exemples sont issus de P. Elbaz, L. Shen, Manuel pratique de traduction chinois-français, français- chinois, Ellipses, 2023.

[7] Nàtiān, wǒ yóurú yígè chīhàn bān zài lièrì xià yǔ wǎngbā zhījiān yóudàng, kàndào niánqīng de shàonián huòshì gūniang biàn yuèyuèyùshì de xiǎngyào dāshàn。那天,我犹如一个痴汉般在烈日下与网吧之间游荡,看到年轻的少年或是姑娘便跃跃欲试的想要搭讪。

[8] Plus d’exemples dans cette conférence à l’UdM.

Pascale Elbaz

Traductrice et enseignante-chercheuse, Docteure en langues, littératures et sociétés du monde ; Enseignante-chercheure à l’ISIT, chercheuse associée à l’IFRAE (Institut de Recherche sur l'Asie de l'Est)

Rayonnages

SavoirsTechnologie

Mots-clés

IA

Notes

[1] Voir la norme ISO 18587 :2017 (fr). Certaines définitions incluent la traduction automatique de la parole dans la TA. Toutefois, dans le présent article, nous ne traiterons que de la traduction automatique de texte.

[2] Lucas Nunes Vieira, « Post-Editing of Machine Translation » In Minako O’Hagan, The Routledge Handbook of Translation and Technology, pp. 319-335, 2019. Sur la pratique de la PE, voir les articles d’Anne-Marie Robert ; voir aussi le numéro spécial de la revue de l’OTTIAQ (Ordre des traducteurs et des terminologues du Quebec).

[3] Voir PowerPoint Presentation; et pour la France Présentation SFT et L’ATLF a interrogé ses adhérents sur la post-édition.

[4] Voir l’étude : Écrire en langues. Entre traduction automatique et hégémonie globish, le multilinguisme comme horizon réaliste pour les revues de sciences humaines et sociales et le projet Operas avec son volet français.

[5] Nicolas Froeliger, Claire Larsonneur et Giuseppe Sofo,Traduction humaine et traitement automatique des langues, vers un nouveau consensus ?, Edizioni Ca’ Foscari, 2023.

[6] mǎ kèlóng fābiǎo quánguó jiǎnghuà, néng shuōfú shìwēizhě men tuōxià « huángbèixīn » a马克龙发表全国讲话,能说服示威者们脱下 « 黄背心 » 吗? (people.com.cn) Renmin wang 人民网 (Publié le 11/12/2018). Tous les exemples sont issus de P. Elbaz, L. Shen, Manuel pratique de traduction chinois-français, français- chinois, Ellipses, 2023.

[7] Nàtiān, wǒ yóurú yígè chīhàn bān zài lièrì xià yǔ wǎngbā zhījiān yóudàng, kàndào niánqīng de shàonián huòshì gūniang biàn yuèyuèyùshì de xiǎngyào dāshàn。那天,我犹如一个痴汉般在烈日下与网吧之间游荡,看到年轻的少年或是姑娘便跃跃欲试的想要搭讪。

[8] Plus d’exemples dans cette conférence à l’UdM.