Quand un modèle linguistique à grande échelle (LLM) comme GPT ou LLaMA décide de refuser un prêt, de diagnostiquer une maladie ou de rédiger un jugement juridique, on attend qu’il puisse expliquer pourquoi. Mais trop souvent, il répond par un silence opaque. Ce n’est pas un bug - c’est une caractéristique. Et cela pose un vrai problème.
Les modèles sont des boîtes noires, et c’est dangereux
Les LLM fonctionnent en analysant des milliards de mots, en détectant des motifs, en prédissant la suite la plus probable. Mais personne ne sait vraiment comment ils arrivent à une réponse précise. Ce n’est pas comme une calculatrice : tu entres 2 + 2, tu obtiens 4, et tu comprends pourquoi. Avec un LLM, tu poses une question sur un patient, et il te dit « risque élevé » - sans dire quels symptômes, quels antécédents ou quelles données l’ont conduit là. Dans les domaines où les erreurs coûtent cher - médecine, justice, finances - cette opacité devient inacceptable. Un médecin ne peut pas prescrire un traitement basé sur un « avis » qu’il ne comprend pas. Un juge ne peut pas condamner quelqu’un sur la base d’une recommandation algorithmique sans pouvoir la vérifier. Et pourtant, c’est déjà ce qui arrive.Transparence ≠ Explicabilité - deux concepts différents
Beaucoup confondent les deux. Mais ce n’est pas la même chose. La transparence, c’est l’ouverture : tu vois ce qui a été utilisé pour entraîner le modèle. Quels textes ? Quelles sources ? Qui les a créés ? Sous quelles licences ? Si un jeu de données a été collecté sans consentement, ou s’il contient des biais culturels, la transparence te le révèle. L’explicabilité, elle, c’est la capacité à dire comment une décision a été prise. Par exemple : « Le modèle a mis l’accent sur les termes “revenu faible” et “historique de remboursement” pour évaluer le risque de défaut. » Ce n’est pas une simple justification - c’est une analyse des poids internes, des attention patterns, des influences des données. Un modèle peut être transparent sans être explicatif. Et inversement. Mais les deux sont nécessaires pour faire confiance.Les données d’entraînement sont le vrai problème
La plupart des gens pensent que le modèle est le problème. En réalité, c’est ce qu’on lui a appris. Une étude du MIT publiée en août 2024 a examiné plus de 1 800 jeux de données utilisés pour entraîner des modèles linguistiques. Résultat ? Plus de 70 % des jeux de données n’indiquaient aucune licence. La moitié contenaient des erreurs dans leur description. Des textes de forums anonymes, des extraits de livres protégés, des discours politiques - tout était mélangé sans filtre. Pire : presque tous les jeux de données ont été créés par des équipes basées aux États-Unis, en Chine ou en Europe. Ce qui signifie que les modèles entraînés sur ces données ne comprennent pas les nuances culturelles, les dialectes ou les contextes sociaux d’autres régions. Un modèle qui apprend à répondre à des questions sur la santé mentale à partir de données en anglais américain va échouer à reconnaître les symptômes décrits différemment en Turquie, au Sénégal ou au Mexique. C’est une forme de colonialisme algorithmique : des données du Nord global sont utilisées pour prédire des comportements du Sud global, sans jamais les avoir consultées.
Le Data Provenance Explorer : un outil qui change la donne
Pour répondre à ce chaos, le MIT a développé Data Provenance Explorer. C’est un outil simple, gratuit, et open-source. Tu y glisses un jeu de données - et il te sort un rapport clair :- Qui l’a créé ?
- Quelle est la source originale ?
- Quelle licence est réellement applicable ?
- Quels usages sont autorisés ?
- Quels biais ont été identifiés ?
Les méthodes d’explicabilité existent - mais elles sont trompeuses
Des chercheurs ont créé des techniques pour « ouvrir » la boîte noire : attention maps, saliency scores, counterfactual explanations. Elles montrent quelles parties du texte ont influencé la réponse. Mais une étude de Du et al. en 2025 a montré que ces méthodes pouvaient produire des explications plausibles mais fausses. Par exemple : un modèle refuse une demande de prêt. L’explication dit : « En raison du faible revenu. » Mais en réalité, le modèle a utilisé le nom de la rue du demandeur - qui correspondait à un quartier historiquement associé à des taux de défaut élevés. Le revenu n’était pas le vrai facteur. La méthode d’explicabilité a ignoré ce lien caché, et a inventé une raison logique. C’est une explication convaincante mais erronée. C’est comme un avocat qui invente une justification plausible pour un client coupable. L’explication est belle. Mais elle ment.
Les modèles fermés freinent la recherche
Les grandes entreprises gardent leurs modèles sous clé. Tu ne peux pas voir les poids, les données d’entraînement, ni les paramètres internes. Tu ne peux que poser des questions et recevoir des réponses. C’est comme un médecin qui refuse de te montrer tes radios, mais te dit « tu as un problème ». Cela bloque la recherche. Personne ne peut vérifier si un modèle est biaisé contre les femmes, les minorités, ou les personnes âgées. Personne ne peut reproduire les résultats. Personne ne peut améliorer la transparence. Les modèles ouverts comme LLaMA, Mistral ou Falcon sont les seuls qui permettent aux chercheurs d’explorer les causes profondes des erreurs. Sans eux, l’explicabilité reste un slogan.Comment construire un modèle transparent ?
Ce n’est pas impossible. Voici ce qu’il faut faire :- Exige la provenance des données - avant d’entraîner un modèle, exige un rapport de provenance comme celui du Data Provenance Explorer.
- Utilise des modèles ouverts - privilégie les architectures comme LLaMA, Mistral, ou Qwen, où le code et les poids sont accessibles.
- Teste les explications - ne te fie pas aux explications fournies par le modèle. Vérifie avec des méthodes externes (ex : LIME, SHAP, ou des analyses manuelles).
- Implique les utilisateurs finaux - si le modèle est utilisé dans un hôpital, demande aux médecins : « Qu’est-ce que tu voudrais comprendre dans l’explication ? »
- Documente les limites - ne dis pas « ce modèle est fiable ». Dis : « ce modèle a été testé sur des données en anglais américain, et ses performances chutent de 42 % sur les dialectes africains. »
Le futur ? Des modèles qui s’expliquent, pas des modèles qui mentent
Le progrès ne viendra pas d’un seul algorithme révolutionnaire. Il viendra d’une culture : celle de l’ouverture. De la responsabilité. De la vérifiabilité. Les modèles qui seront acceptés dans 5 ans ne seront pas les plus puissants. Ce seront les plus transparents. Ceux dont on peut voir les racines. Ceux dont on peut auditer les données. Ceux qui disent « je ne sais pas » au lieu de inventer une réponse. La transparence n’est pas un luxe. C’est la condition même pour que l’IA soit juste.Pourquoi les modèles linguistiques ne peuvent-ils pas toujours expliquer leurs décisions ?
Les modèles linguistiques à grande échelle fonctionnent en ajustant des milliards de paramètres internes basés sur des motifs appris dans des données massives. Ce processus est non linéaire, complexe, et souvent non interprétable par les humains. Même les chercheurs ne peuvent pas toujours tracer chaque décision jusqu’à sa cause exacte. C’est une limitation fondamentale des réseaux profonds, pas une erreur de programmation. Les techniques d’explicabilité tentent de simuler cette explication, mais elles ne révèlent pas toujours la vérité - seulement une interprétation plausible.
Quels sont les risques d’utiliser des jeux de données sans licence claire ?
Utiliser des jeux de données sans licence claire expose à trois risques majeurs : légaux, éthiques et techniques. Légalement, tu peux violer des droits d’auteur ou des termes d’utilisation. Éthiquement, tu peux reproduire des biais ou des contenus non consentis (comme des textes de victimes ou des discours racistes). Technique, tu peux entraîner un modèle sur des données inadaptées - par exemple, un modèle de santé formé sur des forums de jeunes adultes va mal fonctionner pour les personnes âgées. L’absence de licence est un signal rouge qui indique un manque de contrôle sur la qualité et l’origine des données.
Les outils d’explicabilité comme LIME ou SHAP sont-ils fiables pour les LLM ?
Ils sont utiles pour identifier des tendances, mais pas pour garantir la vérité. LIME et SHAP fonctionnent en perturbant l’entrée et en observant les changements de sortie. Mais avec les LLM, ces perturbations peuvent créer des artefacts artificiels. Une étude de 2025 a montré que ces méthodes attribuaient souvent de l’importance à des mots qui n’étaient pas réellement influents - simplement parce qu’ils étaient rares ou inhabituels. Elles donnent une illusion de compréhension, pas une compréhension réelle. Elles doivent être utilisées comme des outils d’exploration, pas comme des preuves.
Pourquoi les modèles ouverts comme LLaMA sont-ils plus transparents que les modèles propriétaires ?
Les modèles ouverts permettent à n’importe qui d’inspecter les poids, les architectures, les jeux de données d’entraînement, et même de reproduire les expériences. Cela signifie que les chercheurs peuvent détecter les biais, tester les explications, et améliorer les modèles. Les modèles propriétaires, comme GPT-4 ou Claude, sont des boîtes noires : tu ne peux pas voir ce qu’ils contiennent, ni comment ils fonctionnent. Tu dois faire confiance à l’entreprise. Or, dans les domaines critiques, la confiance ne suffit pas - la vérifiabilité, oui.
Comment savoir si un modèle est biaisé avant de l’utiliser ?
Commence par vérifier la provenance des données : qui les a créées ? Dans quel contexte ? Quels groupes sont représentés ? Ensuite, teste le modèle sur des scénarios équilibrés : pose la même question à des personnes de genres, âges, origines ethniques différents. Si les réponses varient de manière systématique, il y a un biais. Enfin, utilise des outils comme AI Fairness 360 ou Fairlearn pour mesurer les écarts statistiques. Un modèle juste n’est pas celui qui répond toujours « oui » - c’est celui qui répond de manière cohérente, quel que soit l’identité de la personne.