L'évolution de l'évaluation NLP : du score BLEU aux métriques LLM-as-a-Judge

Imaginez que vous demandiez à un ami de traduire une phrase et qu'il utilise des mots parfaitement synonymes, mais pas exactement ceux de votre dictionnaire. Un outil de correction classique lui donnerait zéro, alors qu'un humain dirait : « C'est parfait ». C'est exactement le problème que le traitement du langage naturel (NLP) a traîné pendant vingt ans. On a essayé de mesurer l'intelligence des machines avec des règles de comptage rigides, alors que le langage est, par nature, fluide et nuancé.

Pendant deux décennies, le BLEU (Bilingual Evaluation Understudy) a été le roi incontesté. Apparu en 2002, ce score a été conçu pour la traduction automatique. Son principe est simple : on compare les mots du texte généré par l'IA avec ceux d'un texte de référence écrit par un humain. Si les mots et les séquences de mots (les n-grammes) correspondent, le score monte. C'est rapide, c'est mathématique, et c'est détermiste. Mais voilà, le évaluation NLP s'est heurtée à un mur avec l'arrivée des grands modèles de langage (LLM).

Le problème du « biais de vocabulaire » et l'échec des métriques lexicales

Le problème majeur de BLEU, et même de son cousin ROUGE (Recall-Oriented Understudy for Gisting Evaluation, souvent utilisé pour les résumés), c'est qu'ils ne comprennent absolument rien au sens. Ils ne font que comparer des chaînes de caractères. Si une IA répond « Le félin dort » alors que la référence est « Le chat sommeille », BLEU peut donner un score très bas alors que le sens est identique.

Cette rigidité crée ce que les chercheurs appellent un « biais de vocabulaire ». On a ainsi vu des modèles être optimisés pour mémoriser des motifs de mots précis plutôt que pour comprendre la tâche. Une étude de Koehn en 2004 avait déjà montré qu'on pouvait gonfler un score BLEU de 15 à 20 points simplement en choisissant les bons mots de vocabulaire, sans pour autant améliorer la qualité réelle de la réponse. En bref, on punissait la créativité et la paraphrase, précisément les capacités que nous voulons aujourd'hui chez un LLM.

L'arrivée des métriques sémantiques et neuronales

Pour sortir de cette impasse, la communauté a développé des approches basées sur des vecteurs et des embeddings. L'idée n'est plus de regarder si les mots sont identiques, mais s'ils sont « proches » dans un espace mathématique.

Le BERTScore est un excellent exemple. Il utilise la puissance de BERT pour comparer les représentations contextuelles des mots. Si vous utilisez un synonyme, BERTScore le reconnaît car il sait que ces deux mots occupent une place similaire dans le langage. Dans la même veine, BLEURT a été entraîné spécifiquement pour prédire les jugements humains, offrant une corrélation bien plus forte avec ce que nous, humains, considérons comme une "bonne" réponse.

Comparaison des approches d'évaluation NLP
Critère	Métriques Lexicales (BLEU/ROUGE)	Métriques Sémantiques (BERTScore)	LLM-as-a-Judge
Vitesse	Instantanée	Rapide (ms)	Lente (secondes)
Compréhension	Aucune (Matching)	Sémantique (Embeddings)	Cognitive (Raisonnement)
Coût	Gratuit	Faible (GPU local)	Élevé (API/GPU puissant)
Corrélation Humaine	Faible	Moyenne/Haute	Très Haute (~81%)

Bulles de mots synonymes flottant ensemble dans un espace gélatineux en 3D.

LLM-as-a-Judge : Quand l'IA évalue l'IA

Le changement le plus radical est l'émergence du concept de LLM-as-a-Judge. Au lieu d'utiliser une formule mathématique, on demande à un modèle très performant (comme GPT-4o ou LLaMA 3.1) de noter la réponse d'un autre modèle en suivant une grille de critères précis : exactitude, clarté, ton et respect des consignes.

C'est une approche beaucoup plus flexible. On peut utiliser trois méthodes différentes selon nos besoins :

L'évaluation pointwise : Le juge attribue une note numérique (ex: 8/10).
L'évaluation pairwise : On présente deux réponses au juge, et il doit dire laquelle est la meilleure. C'est souvent la méthode la plus fiable car elle élimine la subjectivité des notes.
L'évaluation Pass/Fail : Le juge répond simplement par Oui ou Non à une question de conformité.

Ce qui est fascinant, c'est que la qualité du juge dépend moins du modèle choisi que de la conception du prompt d'évaluation. Une étude de 2026 a prouvé que des critères de notation bien définis et des réponses de référence de haute qualité impactent plus la précision que le passage d'un modèle à un autre. Pour mesurer si ce juge est fiable, on utilise généralement le coefficient de corrélation de Spearman pour voir si ses notes suivent la même courbe que celles des humains.

Un robot juge en pâte à modeler évaluant les réponses de deux autres robots.

Comment choisir sa stratégie d'évaluation aujourd'hui ?

S'il est tentant de tout confier à un LLM-juge, ce n'est pas toujours la solution idéale. Le coût des API et la latence peuvent devenir prohibitifs pour des milliers de tests. L'approche recommandée par des experts (comme chez Galileo AI ou Weights & Biases) est une stratégie en couches.

D'abord, utilisez BLEU ou ROUGE pour des « tests de fumée ». Si le score s'effondre, c'est qu'il y a un bug majeur de régression. Ensuite, passez au BERTScore pour vérifier que le sens global est préservé. Enfin, utilisez le LLM-as-a-Judge pour les décisions critiques : est-ce que la réponse est factuellement correcte ? Est-elle sécurisée ? Est-elle utile pour l'utilisateur final ?

Pour ceux qui déploient des systèmes de RAG (Retrieval-Augmented Generation), les métriques génériques ne suffisent plus. Il faut mesurer la pertinence du document récupéré, la fidélité de la réponse par rapport à la source (grounding) et la précision de la récupération. C'est ici que l'évaluation devient une science de la précision plutôt qu'une simple comparaison de textes.

Vers une spécialisation des métriques par tâche

Nous sortons enfin de l'ère du « score unique ». On réalise que pour évaluer du code, un score BLEU est inutile ; on a besoin de tests d'exécution pour savoir si le code tourne. Pour un chatbot de support client, on privilégiera la résolution du problème plutôt que la ressemblance avec un script.

L'avenir se tourne vers des benchmarks holistiques comme MMLU (Massive Multitask Language Understanding) ou HELM, qui testent les modèles sur des dizaines de dimensions différentes. L'idée est de ne plus demander « Est-ce que c'est juste ? » mais « Dans quels domaines ce modèle est-il fiable et où échoue-t-il ? ».

Pourquoi le score BLEU est-il encore utilisé s'il est imparfait ?

C'est principalement dû à l'inertie institutionnelle et à la nécessité de comparer des résultats sur des classements (leaderboards) historiques. BLEU est gratuit, instantané et reproductible, ce qui en fait un outil pratique pour un premier filtrage rapide, même s'il ne reflète pas la qualité sémantique.

Le LLM-as-a-Judge peut-il être biaisé ?

Oui, absolument. Les modèles juges ont tendance à préférer les réponses longues (même si elles sont verbeuses) ou les réponses qui ressemblent à leur propre style de génération. C'est pourquoi l'évaluation pairwise (comparaison de deux réponses) est préférée, car elle force le juge à choisir la meilleure option plutôt que de noter selon ses propres biais de longueur.

Quelle est la différence entre BERTScore et BLEURT ?

BERTScore calcule la similarité cosinus entre les embeddings de deux phrases en utilisant un modèle BERT pré-entraîné. BLEURT, en revanche, est un modèle qui a été spécifiquement entraîné sur des données de jugements humains pour apprendre ce qui rend une phrase « bonne » ou « mauvaise » dans le regard d'un utilisateur.

Comment mesurer la fiabilité d'un système LLM-as-a-Judge ?

On utilise généralement le coefficient de corrélation de Spearman pour comparer les notes du LLM avec celles d'experts humains. On mesure également l'écart-type sur plusieurs passages du même test pour vérifier la stabilité des notes (la consistance).

Est-ce que je devrais utiliser BLEU pour évaluer un chatbot ?

Très probablement non. Un chatbot doit être naturel et utile, pas calqué sur un texte de référence. Utilisez plutôt une combinaison de BERTScore pour la sémantique et un LLM-as-a-Judge pour valider la satisfaction utilisateur et la précision factuelle.

9 Commentaires

11 avril 2026

Alexis Vanmeter

C'est super clair, merci pour le récap ! 😊

13 avril 2026

Rene Pérez Vázquez

On s'extasie sur le « raisonnement » de l'IA alors qu'on ne fait que déplacer le problème d'une boîte noire vers une autre, en espérant que le second modèle ait été nourri d'une dose suffisante de consensus humain pour ne pas nous sortir des aberrations logiques habillées en certitudes mathématiques, ce qui relève plus de la foi aveugle que d'une véritable méthodologie scientifique rigoureuse, n'est-ce pas fascinant de voir comment l'élitisme technique s'auto-alimente ainsi ?

14 avril 2026

Marcelle Williams

L'ironie est savoureuse : on utilise un outil capable d'halluciner pour vérifier si un autre outil hallucine. Quelle époque formidable !

14 avril 2026

Mégane Verbeeck

C'est nimporte quoi !!! BLEU c'est tjs le mieu car c'est pas truqué par des prompt d'IA !!! On nous ment sur les stats !!!

15 avril 2026

Magaly Guardado-Marti

L'approche en couches est la seule façon viable de ne pas se faire berner par des modèles trop verbeux. On ne peut pas se permettre d'ignorer les régressions basiques juste parce qu'un juge LLM a trouvé le style « élégant » alors que le fond est complètement faux. C'est une question de rigueur intellectuelle et de respect pour l'utilisateur final, surtout quand on parle d'applications critiques où une erreur de sémantique peut avoir des conséquences réelles, et pas seulement théoriques dans un papier de recherche.

16 avril 2026

James Funk

Bien sûr que le juge est biaisé, tout est contrôlé par ceux qui possèdent les API. C'est juste un moyen de nous faire croire que leurs modèles sont « intelligents » pour mieux nous vendre des abonnements mensuels. Ils ont même créé des métriques pour valider leurs propres mensonges, c'est brillant de cynisme.

18 avril 2026

Lucile Dubé

Mais c'est trop compliqué tout ça ! Je veux juste que ça marche !

20 avril 2026

Beau Graves

C'est vraiment encourageant de voir comment on affine la précision. On avance vers des systèmes beaucoup plus fiables et inclusifs si on arrive à bien calibrer ces juges pour éviter les préjugés culturels.

21 avril 2026

Emeline Lavalle

Je trouve ça passionnant. On sent qu'on passe enfin d'une phase de bricolage à une vraie science de l'évaluation. C'est super de voir que le RAG est mentionné car c'est là que ça se joue vraiment pour les entreprises aujourd'hui. En combinant BERTScore pour la rapidité et un juge pour la finesse, on a un pipeline vraiment solide. Ça donne confiance pour la suite des déploiements en production, surtout si on garde un œil sur la latence. Bref, super analyse, ça pose bien les bases pour ceux qui débutent en LLMOps sans vouloir s'épuiser dans des tests manuels interminables qui sont de toute façon subjectifs. Bravo pour la clarté du tableau comparatif, ça aide énormément à visualiser les compromis coût/performance.