Decoder-Only vs Encoder-Decoder : Quelle architecture LLM choisir ?

Imaginez que vous deviez choisir un traducteur pour un projet international. D'un côté, vous avez un expert qui analyse chaque phrase dans tous les sens avant de parler. De l'autre, un génie de l'improvisation qui construit sa réponse mot après mot, avec une fluidité déconcertante. C'est exactement le dilemme auquel on fait face quand on choisit entre un modèle architecture LLM de type Decoder-Only et un modèle Encoder-Decoder. Le choix n'est pas une question de puissance brute, mais de structure : voulez-vous transformer une information précise ou générer du contenu créatif ?

Le Transformer est l'architecture fondamentale introduite en 2017 par Google Brain qui a permis l'émergence de tous les modèles de langage modernes. Sans lui, nous n'aurions ni ChatGPT ni DeepL. Mais selon l'objectif, on utilise soit la version complète (Encoder-Decoder), soit une version simplifiée focalisée sur la sortie (Decoder-Only).

L'architecture Encoder-Decoder : La précision du mapping

Le modèle Encoder-Decoder fonctionne comme un pont. L'encodeur lit l'entrée (le texte source) de manière bidirectionnelle, ce qui signifie qu'il regarde à la fois avant et après chaque mot pour en saisir tout le contexte. Ensuite, le décodeur génère la réponse en s'appuyant sur cette représentation riche. C'est l'outil idéal pour les tâches de transformation. Si vous devez traduire un texte du français vers le japonais, la structure des phrases change radicalement. Un modèle comme T5 (Text-to-Text Transfer Transformer) ou BART excelle ici car ils créent une carte mentale précise de l'entrée avant de commencer à écrire. D'ailleurs, des benchmarks de 2023 montrent que ces modèles surpassent les modèles Decoder-Only de 3 à 6 points BLEU sur la traduction anglaise-allemande. Cependant, cette précision a un coût. Ces modèles sont souvent plus gourmands en ressources lors de l'entraînement, demandant environ 30 à 50 % de calculs supplémentaires par rapport à un modèle Decoder-Only de taille équivalente. C'est un investissement rentable si la fidélité aux faits est votre priorité absolue.

L'architecture Decoder-Only : La puissance de la génération

Ici, on a supprimé l'encodeur. Le modèle ne regarde que ce qui a été écrit précédemment pour prédire le mot suivant. C'est ce qu'on appelle l'attention causale. C'est la recette utilisée par la série GPT d'OpenAI, ainsi que par LLaMA-2 de Meta ou Mistral 7B. Pourquoi tout le monde semble-t-il utiliser cette approche ? Parce qu'elle est incroyablement efficace pour la génération de texte et le suivi d'instructions. Pour un chatbot, on ne cherche pas forcément une transformation structurelle, mais une continuation cohérente d'une conversation. L'avantage majeur réside dans la vitesse d'inférence. Sur des GPU NVIDIA A100, les modèles Decoder-Only sont environ 23 % plus rapides. Ils sont aussi beaucoup plus simples à déployer. Les développeurs rapportent souvent que créer une application de chat avec un modèle Decoder-Only demande 40 % de code en moins que pour un système de traduction complexe. Comparaison stylisée en claymation entre un pont de traduction précis et une fusée générative rapide.

Comparaison stylisée en claymation entre un pont de traduction précis et une fusée générative rapide.

Comparatif technique des architectures

Pour y voir plus clair, voici un résumé des différences fondamentales entre ces deux approches.

Comparaison : Decoder-Only vs Encoder-Decoder
Critère	Encoder-Decoder	Decoder-Only
Flux de traitement	Bidirectionnel (Entrée) $\rightarrow$ Autoregressif (Sortie)	Uniquement Autoregressif (Gauche à Droite)
Cas d'usage idéal	Traduction, Résumé précis, Extraction	Chatbots, Rédaction créative, Code
Vitesse d'inférence	Standard	Rapide (+23% environ)
Ressources entraînement	Élevées (+30-50%)	Optimisées
Exemples de modèles	T5, BART, M2M-100	GPT-4, LLaMA, Mistral

Robots en pâte à modeler assemblant des pièces d'architectures LLM pour créer un modèle hybride.

Comment choisir selon votre projet ?

Le choix dépend vraiment du "travail à accomplir". Si vous lancez un service de traduction professionnelle ou un outil d'analyse de documents juridiques où chaque mot compte, l'Encoder-Decoder est votre meilleur allié. Sa capacité à traiter l'entrée de manière globale réduit les erreurs de compréhension structurelle. Par contre, si vous construisez un assistant virtuel, un générateur de contenu marketing ou un outil d'aide au code, foncez sur le Decoder-Only. La fluidité et la capacité de ces modèles à suivre des instructions complexes (comme on le voit avec les scores élevés sur Alpaca Eval) sont imbattables. Attention toutefois aux pièges. Les modèles Decoder-Only ont tendance à halluciner davantage lorsque le contexte devient trop volumineux (dépassant 50 % de leur fenêtre de contexte). De l'autre côté, les modèles Encoder-Decoder ont une courbe d'apprentissage plus raide pour le prompt engineering : près de 68 % des utilisateurs mettent plus de deux semaines pour obtenir des résultats de qualité production.

L'évolution vers des modèles hybrides

On assiste aujourd'hui à une convergence. Pourquoi choisir quand on peut combiner les deux ? Des modèles récents comme Gemini 1.5 Pro tentent de marier la compréhension profonde des encodeurs avec l'efficacité générative des décodeurs. Même Meta, avec Llama-3, a commencé à intégrer des mécanismes d'attention inspirés des encodeurs à l'intérieur de son framework Decoder-Only. L'idée est simple : garder la rapidité du décodeur tout en améliorant la compréhension du contexte global. À long terme, on peut s'attendre à ce que les modèles Decoder-Only dominent le marché généraliste grâce à leur facilité de mise à l'échelle (scaling). Mais pour les niches où la précision chirurgicale est requise, comme la traduction spécialisée, l'architecture Encoder-Decoder restera la norme absolue.

Pourquoi les modèles GPT ne sont-ils que des décodeurs ?

Parce que l'objectif principal des GPT est de prédire le prochain token. En supprimant l'encodeur, OpenAI a simplifié l'architecture, ce qui permet de monter en échelle avec des milliards de paramètres plus facilement et d'obtenir une fluidité de texte supérieure pour la conversation.

Lequel est le meilleur pour le résumé de texte ?

Cela dépend du type de résumé. Pour un résumé factuel et condensé (comme un compte-rendu médical), l'Encoder-Decoder (ex: BART) est supérieur car il analyse mieux l'ensemble du document. Pour un résumé plus narratif ou fluide, le Decoder-Only est souvent préféré.

Est-ce que l'un consomme plus de mémoire que l'autre ?

Oui, généralement. Les modèles Encoder-Decoder demandent environ 40 % de VRAM supplémentaire lors de l'entraînement. Cependant, lors de l'inférence (utilisation), les modèles Decoder-Only peuvent demander jusqu'à 25 % de mémoire en plus pour gérer les caches de tokens.

Que signifie "attention bidirectionnelle" ?

C'est la capacité d'un modèle à regarder les mots situés à gauche ET à droite d'un token cible en même temps. C'est ce qui permet aux encodeurs de comprendre parfaitement le contexte d'un mot selon les mots qui le suivent, contrairement aux décodeurs qui ne regardent que le passé.

Quel modèle choisir pour traduire des langues rares ?

Historiquement, les Encoder-Decoder comme M2M-100 sont bien meilleurs. Toutefois, certains développeurs passent désormais aux modèles Decoder-Only (comme LLaMA) pour gagner en vitesse, quitte à compenser la perte de qualité par un prompt engineering très rigoureux.