Vous avez peut-être déjà vécu cela : vous rédigez une invite pour un modèle de langage, vous obtenez une réponse parfaite, puis vous changez une virgule, un mot ou l’ordre des phrases… et soudain, le modèle répond n’importe quoi. Ce n’est pas une erreur. C’est la sensibilité des invites.
Qu’est-ce que la sensibilité des invites ?
La sensibilité des invites (Prompt Sensitivity Analysis, ou PSA) mesure à quel point les réponses d’un modèle de langage comme GPT-4, Llama 3 ou Gemini changent quand vous modifiez légèrement la façon dont vous lui demandez quelque chose. Deux invites qui veulent dire la même chose - mais qui sont formulées différemment - peuvent produire des résultats complètement différents. C’est comme demander à quelqu’un : « Quelle est la capitale de la France ? » ou « Dis-moi vite la ville où se trouve la Tour Eiffel » : la réponse est la même, mais selon la personne, elle peut hésiter, se tromper, ou même rire.
Les chercheurs ont découvert que cette instabilité n’est pas un bug, mais une caractéristique fondamentale des modèles actuels. En octobre 2024, une équipe de chercheurs a publié ProSA, un cadre d’évaluation qui teste 12 variantes d’une même invite sur un modèle. Ils ont observé que Llama-2-70B-chat pouvait passer d’un score de 0,094 à 0,549 sur une tâche identique - une variation de 463 %. Cela signifie que le modèle n’est pas fiable : il ne sait pas vraiment ce qu’il fait. Il suit des motifs, pas des règles.
Comment mesure-t-on la sensibilité ?
La métrique clé s’appelle le PromptSensiScore (PSS). Elle va de 0 à 1. Un score de 0,1 signifie que le modèle est très stable : peu importe comment vous formulez l’invite, il répond de la même façon. Un score de 0,8 ou plus ? C’est une catastrophe. Le modèle est à la merci de la moindre variation.
Comment ça marche ? On génère 12 versions différentes d’une même invite - par exemple, en changeant le ton (formel vs informel), l’ordre des mots, l’ajout d’exemples, ou la ponctuation. Ensuite, on compare les réponses avec des embeddings linguistiques. Si les réponses sont très différentes, le PSS monte. On vérifie aussi la confiance du modèle : quand le PSS est élevé, la confiance du modèle chute de 32 %. C’est une piste : plus il est incertain, plus il est sensible.
Les modèles ne sont pas tous égaux
Vous pensez que plus un modèle est gros, plus il est fiable ? Pas toujours. Llama-3-70B-Instruct a un PSS moyen de 0,21. Llama-3-8B-Instruct ? 0,37. Le plus gros est donc 76 % plus stable. Mais attention : les modèles plus petits comme Llama-2-13B peuvent avoir des écarts de 76 points de précision entre deux variantes d’invite. Sur une tâche de classification, il peut passer de 24 % à 100 % de bonnes réponses… juste en changeant la structure de la phrase.
GPT-4-turbo, lui, est beaucoup plus stable. Ses variations restent sous les 15 points. Même les modèles de Google montrent des comportements contradictoires : Gemini 1.5-Pro-001 fonctionne mieux avec des invites structurées, mais Gemini 1.5-Flash-001, le modèle plus léger, est plus stable que son grand frère. Ce n’est pas une question de taille. C’est une question de conception.
Les tâches les plus sensibles
La sensibilité n’est pas la même pour toutes les tâches. Les problèmes de raisonnement, comme résoudre une équation mathématique (GSM8k), sont 37 % plus sensibles que les tâches de simple rappel de faits. Pourquoi ? Parce que le raisonnement demande des étapes intermédiaires. Un changement d’invite peut faire sauter une étape, et le modèle s’embrouille. Sur une tâche de classification simple, comme dire si un texte est positif ou négatif, les modèles sont plus robustes - PSS moyen de 0,28. Sur une tâche de raisonnement, il monte à 0,43.
Et si vous ajoutez 3 à 5 exemples dans l’invite ? La sensibilité chute de 28,6 %. C’est la meilleure astuce que vous puissiez utiliser. Donner des exemples, c’est comme montrer à quelqu’un comment faire une chose au lieu de juste lui dire comment faire. Le modèle comprend mieux le contexte.
Les risques réels dans le monde réel
Ça ne se passe pas seulement dans les laboratoires. Sur Reddit, un développeur a passé trois jours à tester 50 variantes d’invite pour un chatbot client. Il a eu des réponses parfaites… et d’autres complètement absurdes. Sur GitHub, une virgule ajoutée dans un prompt a fait planter un système de traitement de paiement - coût : 8 500 $. Dans les services financiers, 38 % des pannes des applications LLM viennent de la sensibilité des invites. C’est plus que les erreurs de code ou les problèmes de connexion.
Les entreprises commencent à réagir. 68 % des entreprises du Fortune 500 testent maintenant la robustesse des invites avant de déployer un modèle. Les banques consacrent 23 % du temps de leurs ingénieurs à cette tâche. Les régulateurs aussi : l’Union européenne vient de publier un projet de règlement exigeant que les modèles à haut risque démontrent leur stabilité face à des variantes d’invite standardisées.
Comment réduire la sensibilité ?
Voici ce qui marche vraiment :
- Ajoutez des exemples : 3 à 5 cas concrets réduisent la sensibilité de près de 30 %.
- Utilisez des structures claires : « Faites ceci : 1. … 2. … » est plus stable que « Peux-tu faire ça, s’il te plaît ? »
- Testez au moins 5 variantes : ne vous fiez pas à une seule invite. Changez le ton, la longueur, l’ordre.
- Évitez les formulations vagues : « Donne-moi une bonne réponse » n’est pas une invite. « Donne-moi une réponse concise, en 3 phrases, en français » oui.
- Utilisez des outils : PromptLayer, ProSA ou PromptRobust automatisent le test des variantes.
Une entreprise comme Scale AI a réduit la sensibilité de 63 % en utilisant une méthode appelée Generated Knowledge Prompting. Elle fait générer au modèle une version intermédiaire de sa compréhension avant de répondre. C’est comme demander à quelqu’un de résumer ce qu’il a compris avant de répondre à la question. Ça marche.
Le futur : standardisation et sécurité
Le problème ne va pas disparaître. Mais il va devenir plus gérable. L’association MLCommons travaille sur un benchmark standard pour la sensibilité des invites, appelé PSB, qui sortira au printemps 2025. Il définira des tests fixes, des variantes obligatoires, et des seuils acceptables.
Les chercheurs avertissent : tant que les modèles fonctionnent par prédiction de mots suivants, ils ne comprendront jamais vraiment le langage. La sensibilité des invites est une preuve que ces modèles ne raisonnent pas - ils imitent. Certains pensent que d’ici 3 ans, les architectures nouvelles réduiront cette sensibilité de 60 à 75 %. D’autres, comme Anthropic, disent que ce sera impossible à éliminer complètement.
Et il y a un risque caché : les pirates exploitent la sensibilité. Une présentation à Black Hat en novembre 2024 a montré que les attaques de type « jailbreak » réussissent 41 % plus souvent sur les modèles très sensibles. Une petite variation dans l’invite peut ouvrir une porte que l’on croyait fermée.
Conclusion : ce n’est pas le modèle qui est bon, c’est l’invite
Les classements des modèles de langage sont trompeurs. Ils mesurent la compétence de celui qui écrit l’invite, pas la capacité du modèle. Si vous voyez un modèle qui « bat » un autre sur un benchmark, demandez-vous : quelles invites ont été utilisées ? Était-ce la même dans les deux cas ?
La sensibilité des invites n’est pas un détail technique. C’est une question de fiabilité. Si vous utilisez un LLM pour prendre des décisions - même simples - vous devez tester vos invites comme vous testeriez un logiciel. Pas une fois. Pas une seule version. Plusieurs. Avec des variations. Et avec un œil critique.
Le futur de l’ingénierie des invites ne sera plus : « Comment faire pour que ça marche ? » Mais : « Comment faire pour que ça marche à chaque fois ? »
Qu’est-ce qui cause la sensibilité des invites dans les LLM ?
La sensibilité vient du fait que les modèles de langage ne comprennent pas le sens profond des phrases. Ils apprennent à prédire les mots suivants en se basant sur des motifs statistiques. Une petite variation dans la structure, le ton ou la ponctuation change les motifs qu’ils reconnaissent, ce qui les amène à générer des réponses différentes - même si le sens est identique. C’est une limitation fondamentale de l’architecture actuelle, pas une erreur de programmation.
Le PromptSensiScore (PSS) est-il fiable ?
Oui, mais avec des limites. Le PSS mesure la variation des réponses à l’aide d’embeddings linguistiques, ce qui est plus objectif que l’évaluation humaine. Il est validé par des études académiques comme ProSA et FormatSpread. Cependant, il ne capture pas toujours la qualité sémantique ou la pertinence humaine. Une réponse peut être très différente mais encore correcte. Le PSS est un indicateur de stabilité, pas de qualité. Il faut le combiner avec d’autres mesures.
Pourquoi GPT-4-turbo est-il plus stable que Llama-2 ?
GPT-4-turbo a été entraîné sur des données plus diversifiées, avec des techniques de fine-tuning plus poussées, notamment sur des jeux de données conçus pour améliorer la robustesse des invites. Son architecture intègre des mécanismes de régularisation qui réduisent l’impact des variations mineures. Llama-2, bien qu’open-source et puissant, a été optimisé pour la performance brute, pas pour la stabilité. Les modèles de l’OpenAI ont bénéficié d’un plus grand investissement en ingénierie de l’invite pendant l’entraînement.
Est-ce que les exemples dans les invites réduisent vraiment la sensibilité ?
Oui, et c’est l’une des méthodes les plus efficaces. Fournir 3 à 5 exemples de bonnes réponses permet au modèle de mieux comprendre le format, le ton et le niveau de détail attendus. Des études montrent une réduction moyenne de 28,6 % du PromptSensiScore avec seulement 3 exemples. Cela fonctionne parce que les exemples fournissent un contexte concret, réduisant l’ambiguïté que le modèle doit interpréter.
Comment savoir si mon invite est trop sensible ?
Testez-la. Écrivez 5 versions différentes de votre invite : changez le ton, l’ordre des mots, ajoutez ou retirez des ponctuations, utilisez des synonymes. Exécutez-les toutes sur le même modèle. Si les réponses varient fortement en contenu, longueur ou structure, votre invite est sensible. Si vous obtenez des réponses cohérentes et de haute qualité, vous avez trouvé une version stable. Utilisez des outils comme PromptLayer ou le toolkit ProSA pour automatiser ce test.
Les entreprises utilisent-elles vraiment l’analyse de sensibilité des invites ?
Oui, de plus en plus. Selon un sondage IDC de novembre 2024, 68 % des entreprises du Fortune 500 intègrent désormais des tests de robustesse des invites dans leurs pipelines de déploiement. Les secteurs à haut risque - finance, santé, juridique - sont les plus actifs. Les banques consacrent 23 % du temps de leurs ingénieurs à cette tâche. Ce n’est plus un luxe : c’est une exigence opérationnelle pour éviter les pannes coûteuses et les erreurs de décision.
1 Commentaires
Marcelle Williams
Donc pour résumer : on a des IA qui répondent n’importe comment selon qu’on met une virgule ou pas, et on appelle ça de l’« intelligence » ? Je préfère encore mon chat qui me regarde avec mépris quand je lui demande de m’ouvrir la porte… au moins, il ne prétend pas comprendre.