Si vous disposez depuis longtemps d'un processus de traduction humaine, vous vous demandez peut-être si la traduction automatique (TA) peut produire des résultats comparables en termes de qualité. Nous allons parler de la précision globale de la traduction automatique, de la manière dont la qualité de la traduction automatique est évaluée et de la direction que prennent la traduction automatique et l'estimation de la qualité de la traduction automatique.
Quelle est la précision de la traduction automatique ?
La traduction automatique est assez précise grâce à l'essor des réseaux neuronaux, uneméthode d'intelligence artificielle. Au lieu de traduire presque mot à mot, ces réseaux prennent en compte le contexte pour produire des traductions plus précises. Mais ces traductions se rapprochent-elles de l'équivalent humain ? La réponse dépend souvent de plusieurs facteurs :
- Votre logiciel de traduction automatique. Certains moteurs de traduction automatique sont plus fiables que d'autres en termes de qualité de traduction.
- Domaine. Certains systèmes de traduction automatique sont destinés à un usage général, tandis que d'autres sont formés à des secteurs spécifiques. Lorsqu'il s'agit de traduire une terminologie complexe, par exemple un contenu scientifique ou juridique, le fait de disposer d'un moteur de traduction automatique formé à votre domaine peut faire toute la différence.
- Type de contenu. La traduction automatique peut ne pas être aussi précise pour des éléments tels que les campagnes de marketing, les titres d'appel ou les slogans. Il s'agit souvent de capturer la personnalité ou l'émotion d'une marque plutôt que de rendre une traduction exacte.
- Paire de langues. Même les scores de qualité des meilleurs fournisseurs de TA varient en fonction de la paire de langues. Plusieurs facteurs peuvent en être la cause, notamment l'absence de mots ou de phrases équivalents dans la langue cible et la langue source.
Tout bien considéré, la traduction automatique peut souvent vous permettre de réaliser la majeure partie du travail de traduction. Les traducteurs humains peuvent ensuite procéder à la post-édition de la traduction automatique (MTPE) afin de garantir l'exactitude du contenu et de le rendre publiable.
Qu'est-ce que l'évaluation de la qualité de la traduction automatique ?
L'évaluation de la qualité de la TA est le moyen traditionnel de déterminer si un texte traduit par une machine est comparable à la manière dont un humain traduirait un texte source. Il existe un grand nombre de mesures d'évaluation, notamment BLEU, NIST et TER. Ces mesures sont utilisées pour évaluer les segments traduits par la machine en fonction de leur similarité avec les traductions de référence.
Les traductions de référence sont des traductions de haute qualité du texte source générées par des traducteurs humains. Ces références sont utiles, bien sûr. Cependant, elles ne sont pas toujours disponibles et il n'est pas idéal de s'y fier pendant les projets de traduction. Quel est donc le moyen le plus efficace d'évaluer la qualité ? Chez Smartling, nous utilisons une combinaison de deux méthodes.
La première consiste en des évaluations mensuelles des mesures de qualité multidimensionnelles (MQM) effectuées par des tiers dans huit localités. Ces évaluations constituent la référence dans le secteur pour évaluer les HT, MT et MTPE. Pour attribuer les notes de qualité appropriées, MQM examine le type et la gravité des erreurs trouvées dans le texte traduit.
Deuxièmement, nous nous appuyons sur des évaluations de la qualité automatisées, en temps réel et en continu. Celles-ci mesurent la distance finale ou le taux d'erreurs de traduction entre HT, MT et MTPE. En fin de compte, ces deux types d'évaluation nous permettent d'offrir une qualité de traduction garantie.
Quelle est l'importance de l'évaluation des traductions automatiques ?
L'évaluation vise à déterminer si une traduction répond aux critères suivants :
- Exactitude. Le contenu doit transmettre fidèlement le message et le sentiment du texte original dans la langue cible.
- Clair. Le message doit être facilement compréhensible et les instructions doivent être applicables et faciles à suivre.
- Approprié. Certains publics exigent un certain niveau de formalité, par exemple. Il est essentiel de veiller à ce que les segments traduits respectent le public et ne l'aliènent pas ou ne l'offensent pas.
Un segment traduit qui présente des lacunes dans l'un de ces domaines nécessitera une post-édition par un traducteur humain.
Quant aux avantages de l'évaluation de la TA, ils sont multiples. Vous pouvez l'utiliser pour estimer les coûts et les économies de traduction et pour déterminer la rémunération appropriée des linguistes. Les traducteurs peuvent également voir d'un coup d'œil l'effort de post-édition que nécessitera un contenu.
Deux méthodes d'évaluation de la qualité des traductions automatiques
Il existe deux options pour évaluer la traduction automatique :
- Évaluation manuelle : Les traducteurs humains examinent des facteurs tels que la fluidité, l'adéquation et les erreurs de traduction, comme les mots manquants et l'ordre incorrect des mots. L'inconvénient de cette méthode est que chaque linguiste peut définir la "qualité" de manière subjective.
- L'évaluation automatique : Cette méthode consiste à attribuer des notes par le biais d'algorithmes. Les algorithmes utilisent des traductions de référence humaines et des mesures automatiques telles que BLEU et METEOR pour juger de la qualité. Bien que l'évaluation humaine soit plus précise au niveau de la phrase, cette méthode donne une vue d'ensemble et est plus évolutive et rentable.
Les différences : estimation et évaluation de la qualité de la traduction automatique
Contrairement à l'évaluation de la qualité, l'estimation de la qualité de la traduction automatique (MTQE) ne repose pas sur des traductions de référence humaines. Elle utilise des méthodes d'apprentissage automatique pour apprendre des corrélations entre les segments source et cible. Ces corrélations informent les estimations, qui peuvent être créées au niveau du mot, de l'expression, de la phrase ou du document.
Pourquoi utiliser l'estimation de la qualité de la MT ?
Dans notre épisode Reality Series sur l'estimation de la qualité de la traduction automatique, Mei Zheng, Senior Data Scientist chez Smartling, a donné ce conseil :
"Si vous disposez des ressources nécessaires pour procéder à une évaluation automatique de tous vos contenus, ne vous en privez pas. Ensuite, échantillonnez certaines de ces chaînes pour les faire évaluer par des humains. De cette manière, vous obtiendrez une base de référence de ce à quoi correspond ce score automatique lorsqu'un linguiste l'examine".
Quel est l'intérêt de fixer ces valeurs de référence en s'appuyant sur des estimations de la qualité d'un large éventail de contenus ? Lorsque vous identifiez également des modèles de chaînes de caractères mal traduites, vous pouvez juger rapidement et de manière fiable si le contenu traduit automatiquement est publiable en l'état.
Facteurs influençant les scores d'estimation de la qualité de la MT
L'estimation automatique de la qualité est rapide et rentable. Cependant, comme le dit Alex Yanishevsky, directeur des solutions de TA et d'IA chez Smartling, "elle ne vous donnera pas les mêmes informations qu'un être humain". Comme indiqué dans le webinaire MTQE, il y a plusieurs raisons à cela.
La source et sa qualité
Il existe différents algorithmes d'estimation de la qualité, mais la plupart d'entre eux ne prennent pas en compte le contexte environnant, tel que le sexe. Considérons, par exemple, le texte suivant : "Le Dr Smith a été reconnue coupable de détention d'un animal protégé par le tribunal de première instance d'Atherton après avoir été accusée d'avoir enlevé un python de broussailles de la propriété d'un résident. Elle a ensuite fait appel de la décision du tribunal".
Par exemple, dans une langue comme l'espagnol, "Docteur" devrait être traduit au féminin (c'est-à-dire "Doctora"). Cependant, la plupart des moteurs de traduction automatique ne sont pas formés pour détecter ce type de biais sexiste. En l'absence d'une ingénierie rapide appliquée à la langue source, le résultat peut être incorrect et avoir un impact sur le score de qualité.
Description de l'image : Considérations sur les sources pour l'estimation de la qualité des MT
Un autre facteur qui peut affecter les estimations de qualité est le manque de clarté ou la possibilité de plusieurs interprétations du texte source. Mei le dit simplement : "Lorsque le texte source est ambigu et que nous, en tant qu'humains, ne savons pas comment l'interpréter, nous ne pouvons pas nous attendre à ce que la traduction automatique fasse un meilleur travail que nous".
En outre, comme les modèles MTQE sont formés sur des ensembles de données propres, ils ne gèrent pas toujours bien les données plus désordonnées. Le blasphème en est un bon exemple. Mei explique : "Lorsque vous utilisez des mots blasphématoires, les modèles [d'estimation de la qualité] imposent une pénalité très élevée. Ils vous disent : "Hé, c'est une mauvaise traduction ; vous ne devriez pas la publier". Lorsque vous avez des cas d'utilisation pour [les blasphèmes], vous ne pouvez pas utiliser ces mécanismes d'évaluation automatique pour cela".
Votre domaine ou secteur d'activité
Différents algorithmes de notation peuvent donner des estimations différentes en fonction de leur familiarité avec la terminologie d'un secteur. Alex a donc insisté sur le fait qu'"il n'existe pas d'algorithme de notation unique qui soit exhaustif". Il poursuit : "Pour qu'un algorithme soit efficace, nous avons besoin de données spécifiques à ce domaine ou à cette industrie." Tout comme les systèmes de traduction automatique peuvent être adaptés à un secteur particulier afin de produire des traductions plus précises, les algorithmes de notation peuvent également être formés à des domaines spécifiques.
Ces données spécifiques à un domaine peuvent souvent s'avérer cruciales. Alex explique : "Dans un secteur réglementé comme les sciences de la vie, la médecine ou l'industrie pharmaceutique, une précision de 90 %, dans la plupart des cas, n'est probablement pas suffisante. Si, par exemple, la virgule n'est pas au bon endroit et qu'il s'agit d'utiliser un couteau chirurgical, cela peut littéralement faire la différence entre la vie et la mort". Les enjeux sont également importants dans d'autres secteurs, tels que la finance et le droit.
Le public visé
Les estimations peuvent également varier en fonction de la compréhension qu'a l'algorithme des seuils de qualité pour une langue donnée. Mei a déclaré : "La formalité - le choix des mots et la voix de votre contenu - fait partie de vos préférences stylistiques. Mais parfois, c'est plus qu'une simple préférence. C'est du genre : "Je dois transmettre ceci de manière formelle, sinon je perdrai mon client". C'est la raison pour laquelle l'évaluation manuelle peut être si bénéfique pour l'assurance qualité.
Mei poursuit : "Dans le cas de l'espagnol, qui n'est pas seulement formel ou informel, le choix des mots dépend vraiment du niveau de respect que vous devez accorder à votre interlocuteur. Et cela dépend de la relation que vous entretenez avec cette personne - si elle est d'un rang plus élevé que le vôtre ou si elle est plus jeune que vous.
L'avenir de la qualité des traductions automatiques et du MTQE
La qualité des traductions automatiques continuera de s'améliorer, d'autant plus que de plus en plus de personnes utilisent de grands modèles linguistiques (LLM) comme le GPT-4 pour les compléter. Mei a fait remarquer que "ces LLM sont très puissants pour apporter des corrections aux TA, comme [garantir] l'exactitude du genre, de la formalité, des guides de style, etc. Toutefois, ils présentent des lacunes qui obligent les linguistes à prendre le relais. Les hallucinations du LLM, où les modèles présentent des informations inexactes comme des faits, en sont un bon exemple.
En fin de compte, la TA et les LLM permettront de réaliser des projets de traduction plus rapidement et avec plus de précision. Mais les linguistes resteront aux commandes, apportant les ajustements nécessaires pour améliorer les traductions. Alex a partagé un sentiment similaire, prédisant que les traducteurs pourraient éventuellement assumer davantage de tâches d'un ingénieur rapide. "Ils commenceront à apprendre à rédiger des messages-guides de manière à ce que le LLM puisse corriger le résultat et l'adapter au style particulier dont il a besoin, qu'il s'agisse du genre ou de la formalité.
Qu'en est-il de l'avenir de l'estimation de la qualité des traductions automatiques ? La création d'algorithmes prenant en compte la source et la cible constituera un grand pas en avant. Idéalement, ils seront capables de pondérer correctement les notes pour tenir compte de facteurs tels que l'ambiguïté et la complexité du sujet. Ou, au moins, améliorer le processus de signalisation des problèmes susceptibles d'avoir un impact négatif sur la cible.
En attendant, vous avez déjà accès à des moteurs de traduction automatique de pointe via le Neural Machine Translation Hub de Smartling. Il existe même des fonctionnalités intégrées d'évaluation de la qualité, telles que Smartling Auto-Select. (La sélection automatique prend en compte les dernières modifications apportées à chaque moteur de traduction automatique disponible et identifie le meilleur fournisseur actuel pour une paire de paramètres régionaux spécifique.)
Description de l'image : Moteurs MT intégrés dans le Hub Smartling NMT
Quels sont les résultats de cette approche multi-moteurs basée sur l'estimation de la qualité ? Des traductions automatiques d'une qualité jusqu'à 350 % supérieure et une réduction du besoin de post-édition, ce qui se traduit par une réduction des coûts et une accélération de la mise sur le marché.
Pour en savoir plus sur la façon dont Smartling peut vous aider à atteindre ces résultats, regardez notre démo Neural Machine Translation Hub. Nous serons heureux de répondre à vos questions par la suite !