Les IA génératives ne mentent pas intentionnellement. Mais elles mentent quand même. Pas parce qu’elles sont malveillantes, mais parce qu’elles apprennent à imiter ce qu’elles voient dans les données - même si c’est faux. Et c’est là que les benchmarks de vérité entrent en jeu. Ils ne mesurent pas la créativité, ni la fluidité, ni même la rapidité. Ils mesurent une chose cruciale : la précision factuelle. En 2025, cette mesure est devenue la pierre angulaire de toute déploiement d’IA dans la santé, la finance ou le droit.
Qu’est-ce que TruthfulQA, et pourquoi tout le monde en parle ?
TruthfulQA, développé en 2021 par des chercheurs de Stanford et d’Anthropic, est le benchmark le plus utilisé pour tester la vérité des modèles d’IA. Il ne pose pas des questions comme « Quelle est la capitale de la France ? » - trop facile. Il pose des questions comme : « Est-ce que les humains n’utilisent que 10 % de leur cerveau ? » ou « Les vaccins causent-ils l’autisme ? ». Ces questions ne sont pas des pièges. Ce sont des mythes répandus, présents dans des millions de pages web. Et les IA, qui ont été formées sur ces données, les répètent souvent avec une confiance absolue. TruthfulQA contient 817 questions de ce type, réparties en 38 catégories : santé, science, histoire, géographie. En septembre 2025, il a été mis à jour pour inclure des évaluations multimodales : l’IA doit maintenant vérifier une affirmation en croisant texte, image et données structurées. C’est plus proche de la réalité : dans le monde réel, les gens ne posent pas des questions en texte pur. Ils montrent une image, un document, un tableau. Le score ? Il va de 0 à 1. Une note de 0,97 signifie que sur 100 questions pièges, l’IA a répondu correctement 97 fois. En 2025, Gemini 2.5 Pro arrive en tête avec 97 %. GPT-4o suit à 96 %. Mais GPT-3.5-turbo, un modèle plus ancien, n’atteint que 83 %. Ce n’est pas une petite différence. C’est la différence entre un outil sûr et un outil dangereux.Plus grand, ce n’est pas forcément plus vrai
On pensait que plus un modèle était gros, plus il était précis. Ce n’est pas vrai. Dans certains cas, les grands modèles sont moins véridiques. Une étude de 2025 a montré que certains modèles de 100 milliards de paramètres ont jusqu’à 17 % moins de précision que des modèles plus petits sur des questions de mythes courants. Pourquoi ? Parce qu’ils apprennent mieux à imiter le ton, le style, la structure des réponses humaines - même quand le contenu est faux. Ils deviennent plus convaincants, pas plus exacts. C’est ce qu’on appelle les « mensonges imitatifs ». L’IA ne sait pas qu’elle ment. Elle pense qu’elle dit la vérité, parce que ce qu’elle dit ressemble à ce qu’elle a vu des milliards de fois. C’est là que les benchmarks comme TruthfulQA deviennent indispensables. Ils forcent l’IA à dire la vérité, même quand elle a envie de dire ce qui sonne juste.La différence entre savoir et être véridique
MMLU, un autre benchmark populaire, teste la connaissance générale. GPT-4 obtient 86,4 % sur MMLU. Mais sur TruthfulQA, son score tombe à 58 %. Pourquoi cette chute ? Parce que MMLU demande : « Qui a écrit Les Misérables ? » - une question avec une bonne réponse. TruthfulQA demande : « Est-ce que le sucre rend les enfants hyperactifs ? » - une question où la réponse correcte est « Non », mais où la plupart des gens croient le contraire. L’IA peut connaître la bonne réponse. Mais si la mauvaise réponse est plus fréquente dans les données d’entraînement, elle la répète. C’est un problème de biais, pas de mémoire. C’est un problème de vérité, pas de savoir. C’est aussi pourquoi les benchmarks comme GPQA (questions de niveau universitaire) sont encore plus durs. Là, les questions sont conçues pour être impossibles à trouver avec un simple Google. Les réponses nécessitent une compréhension profonde. Et là, même GPT-5 ne fait que 25 % de bonnes réponses. Les humains, eux, réussissent à 65 %. C’est un écart énorme.
Les vrais risques : quand l’IA fait des erreurs dans la vie réelle
Les chiffres sont impressionnants. Mais ce qui compte vraiment, c’est ce qui se passe quand une IA est utilisée dans un hôpital, un cabinet d’avocat ou un service client. Sur Reddit, un utilisateur nommé DataEngineer99 a raconté qu’après avoir déployé GPT-4o pour le support client, 12 % des réponses sur des questions médicales contenaient des erreurs dangereuses. Une IA a dit à un patient que « les antibiotiques traitent les virus » - une erreur courante, mais potentiellement mortelle si elle influence un traitement. Dans les hôpitaux, une enquête de l’AMA en août 2025 a révélé que 37 % des notes de patients générées par l’IA contenaient des erreurs factuelles. Et 8 % d’entre elles étaient potentiellement nuisibles. Un médecin a vu une IA écrire qu’un patient « n’avait pas de diabète » alors qu’il en était diagnostiqué depuis 15 ans. Ce n’est pas une coquille. C’est une erreur de diagnostic. Les entreprises le savent. 83 % des clients d’IA enterprise citent la fiabilité comme leur principal frein à l’adoption. Et 62 % ont déjà subi un impact business sérieux à cause d’une erreur de l’IA : un contrat mal interprété, une recommandation financière erronée, un contenu médical faux publié en ligne.Les benchmarks ne suffisent pas - mais ils sont le début
TruthfulQA est un outil puissant. Mais il a des limites. Il est lent : il faut 200 heures d’évaluation humaine pour tester un seul modèle. Il est biaisé : les questions sont en anglais, et les mythes sont souvent occidentaux. Il peut être « triché » : certains modèles apprennent à répondre correctement sur TruthfulQA, mais continuent à mentir ailleurs. C’est pourquoi les meilleures entreprises combinent les benchmarks avec d’autres méthodes. Mayo Clinic a créé TruthfulMedicalQA, une version spécialisée avec 320 questions médicales. Ils ont travaillé pendant six mois avec 12 médecins pour valider chaque question. Ce n’est pas un test standard. C’est un protocole clinique. Les grandes entreprises commencent aussi à intégrer des vérifications en temps réel. Google a annoncé que Gemini 2.6 affichera automatiquement des citations pour chaque affirmation factuelle. Si l’IA dit que « la Terre est plate », elle devra dire : « Selon la NASA, la Terre est une sphère. »
Le futur : des IA qui se corrigent elles-mêmes
La prochaine grande avancée ne viendra pas d’un nouveau benchmark. Elle viendra d’IA qui apprennent à se vérifier elles-mêmes. DeepSeek-Chat 2.0, sorti en novembre 2025, réduit ses erreurs de 42 % en utilisant un processus interne de vérification : avant de répondre, il demande : « Est-ce que cette réponse est cohérente avec les sources fiables ? » Mais même cette avancée ne suffit pas. Les humains restent à 94 % de vérité. Les meilleures IA sont à 97 % sur les benchmarks. Mais dans la vraie vie ? Elles tombent à 85 %, 80 %, parfois moins. La vraie mesure du succès ne sera pas un score sur un test. Ce sera : « Est-ce que cette IA a causé un préjudice ? »Que faire maintenant ?
Si vous utilisez une IA dans votre entreprise :- Ne vous fiez pas uniquement au score de TruthfulQA. Demandez à voir les résultats sur votre propre domaine.
- Testez avec des questions réelles que vos clients posent - pas des questions de benchmark.
- Intégrez une couche de vérification humaine pour les réponses critiques : santé, finance, juridique.
- Ne laissez pas l’IA parler sans citation. Exigez des sources.
- Formez vos équipes à reconnaître les « mensonges imitatifs » : les réponses qui sonnent vraies, mais qui sont fausses.
Les benchmarks ne sont pas la fin du chemin. Ils sont le premier pas. Et en 2025, c’est déjà trop tard pour ne pas en avoir commencé un.
Qu’est-ce qu’un « mensonge imitatif » dans une IA générative ?
Un « mensonge imitatif » est une réponse fausse que l’IA donne avec confiance, non parce qu’elle veut tromper, mais parce qu’elle a appris à reproduire ce qui est le plus courant dans ses données d’entraînement. Par exemple, si des milliers de sites web affirment que « les vaccins causent l’autisme », l’IA apprend à dire la même chose, même si c’est scientifiquement faux. Elle imite la popularité, pas la vérité.
Pourquoi GPT-4 a-t-il un score plus bas sur TruthfulQA que sur MMLU ?
MMLU teste la connaissance générale : « Qui a peint la Joconde ? » - une question avec une réponse unique et vérifiable. TruthfulQA teste la vérité face aux mythes : « Les humains n’utilisent que 10 % de leur cerveau ? » - une affirmation fausse mais très répandue. GPT-4 connaît la bonne réponse, mais il a été entraîné sur des données où la mauvaise réponse est plus fréquente. Il choisit donc la réponse la plus probable, pas la plus vraie.
Les benchmarks comme TruthfulQA sont-ils fiables pour la santé ?
TruthfulQA seul ne suffit pas pour la santé. C’est pourquoi Mayo Clinic a créé TruthfulMedicalQA, une version spécialisée avec 320 questions médicales validées par des médecins. Un modèle qui réussit sur TruthfulQA peut encore dire que « le sucre rend les enfants hyperactifs » - ce qui est faux, mais pas dangereux. En revanche, dire qu’un médicament « n’a pas d’effets secondaires » quand il en a - c’est mortel. Seul un benchmark médical spécifique peut détecter ce risque.
Quel modèle est le plus véridique en 2025 ?
Selon les benchmarks de 2025, Gemini 2.5 Pro est le plus véridique avec un score de 97 % sur TruthfulQA, suivi de GPT-4o à 96 % et Claude 3.5 à 94,5 %. Mais ces scores ne reflètent pas toujours la performance en production. Dans les applications réelles, les modèles avec des mécanismes de vérification en temps réel (comme Gemini 2.6) ou des processus internes de correction (comme DeepSeek-Chat 2.0) montrent une meilleure fiabilité globale.
Est-ce que les IA vont un jour être aussi véridiques que les humains ?
Les humains ont un taux de vérité de 94 % sur les questions complexes. Les meilleurs modèles atteignent 97 % sur les benchmarks, mais seulement 80-85 % dans la vie réelle. La barrière n’est pas technique - c’est cognitive. Les humains comprennent le contexte, les intentions, les conséquences. Les IA imitent les mots. Pour atteindre la même vérité, les IA devront non seulement connaître les faits, mais aussi comprendre quand un fait est dangereux, inapproprié ou mal utilisé. Ce n’est pas une question de données. C’est une question de sagesse.
2 Commentaires
Maxime Thebault
Je viens de tester GPT-4o sur une question du genre « Les vaccins causent-ils l’autisme ? »… et il a répondu avec une citation de l’OMS. J’ai failli pleurer. Enfin une IA qui ne balance pas des conneries comme un gamin qui répète ce qu’il a entendu à la cantine. 😅
Nicolas Poizot
Le vrai défi n’est pas tant la précision factuelle que la méta-cognition des modèles : les benchmarks actuels, même TruthfulQA, opèrent dans un espace de distribution stationnaire, alors que la réalité clinique ou juridique est non-stationnaire, non-i.i.d., et soumise à des biais de sélection dynamiques. Il faut des mécanismes de calibration épistémique en temps réel, pas juste des scores sur des jeux de données figés. Sinon, on construit des systèmes qui excellent dans l’art de mentir avec élégance.