Vous avez peut-être entendu dire que plus un modèle de langage est grand, mieux il performe. Mais à quel moment arrêter l'entraînement ? Pourquoi certains modèles sont-ils entraînés 32 fois plus longtemps que ce que la science recommande ? Et pourquoi cela fonctionne-t-il malgré tout ? La réponse n’est pas dans les chiffres, mais dans les compromis entre efficacité théorique et performance réelle.
Les lois d’échelle : ce que la science dit vraiment
En 2020, une équipe de chercheurs d’OpenAI a publié un papier révolutionnaire : Scaling Laws for Neural Language Models. Ils ont découvert une règle simple, presque mathématique : la performance d’un modèle de langage (mesurée par la perte sur un jeu de test) suit une puissance inverse par rapport à trois facteurs : la taille du modèle (nombre de paramètres), la taille du jeu de données (tokens entraînés), et la quantité de calcul utilisée. Plus vous augmentez l’un de ces trois éléments, plus la perte diminue - mais pas linéairement. C’est une courbe qui s’aplatit.
La formule de base est : L = A/N^α + B/D^β + L₀. Chaque terme représente une source de perte : celle due à la taille du modèle (N), celle due à la quantité de données (D), et une perte de fond (L₀). Ce que cette loi révèle, c’est que les grands modèles sont beaucoup plus efficaces en échantillons. Un modèle de 70 milliards de paramètres peut atteindre la même performance qu’un modèle de 7 milliards… avec 10 fois moins de données. Cela change tout : on n’a plus besoin de tout entraîner à fond. On peut entraîner un modèle plus grand avec moins de données, et obtenir de meilleurs résultats.
Chinchilla : l’optimum théorique que tout le monde ignore
En 2022, DeepMind a publié Training Compute-Optimal Large Language Models - le papier qui a changé la donne. Ils ont montré que pour un budget de calcul donné, la meilleure performance n’est pas obtenue en maximisant la taille du modèle… ni en maximisant la taille du jeu de données. Il faut les équilibrer.
Leur conclusion ? Pour un budget de calcul C, le nombre optimal de paramètres est N_opt ∝ C^0.5, et le nombre optimal de tokens est D_opt ∝ C^0.5. En clair : si vous avez 100 unités de calcul, vous devriez utiliser 50 pour le modèle et 50 pour les données. Pas 90 pour le modèle et 10 pour les données. Pas 10 pour le modèle et 90 pour les données.
Et voilà la surprise : la plupart des modèles antérieurs à 2022 étaient sous-entraînés. GPT-3, avec ses 175 milliards de paramètres, n’a été entraîné que sur 300 milliards de tokens. Selon Chinchilla, il aurait fallu 1 400 milliards de tokens pour atteindre l’optimum. Autrement dit : GPT-3 a été arrêté trop tôt. Trop tôt.
La réalité du terrain : pourquoi tout le monde sur-entraîne
Si Chinchilla est optimal, pourquoi Meta, Microsoft et Mistral entraînent-ils leurs modèles 4 à 32 fois au-delà de ce point ?
Parce que les lois d’échelle mesurent la perte de prédiction de token suivant. Mais les entreprises ne veulent pas de faible perte. Elles veulent que le modèle réponde bien à des questions, qu’il raisonne, qu’il code, qu’il écrive sans erreur. Et là, les choses changent.
Des études de Cameron Wolfe (2023) ont montré que surtrainner un modèle de 70 milliards de paramètres de 32 fois (soit 44,8 trillion de tokens) réduit la perte de 1,65 à 1,45 sur le jeu de données Pile. Cela ne semble pas énorme… mais dans la pratique, ça signifie une amélioration de 8 à 12 % sur les benchmarks de tâches réelles comme MMLU (Multi-choice Multi-Language Understanding). C’est comme passer de 85 % à 95 % de bonnes réponses à un examen de médecine.
Meta a entraîné LLaMA-2 (70B) sur 2 000 milliards de tokens - soit 1,4 fois l’optimum Chinchilla. Pour son modèle de 7 milliards, il a utilisé 14 fois plus de données que nécessaire. Pourquoi ? Parce que les petits modèles, s’ils sont sur-entraînés, deviennent plus robustes. Ils apprennent à généraliser, à ne pas se tromper sur les questions pièges, à éviter les hallucinations.
Microsoft a fait encore plus radical : avec Phi-2 (2,7 milliards de paramètres), ils ont utilisé 8 fois plus de données que l’optimum… mais pas n’importe quelles données. Des textes synthétiques de qualité universitaire. La qualité compense la quantité. Et ça marche.
Comment savoir quand arrêter ? Les signaux concrets
Les chercheurs ne se contentent pas de deviner. Ils mesurent. Voici les trois indicateurs qu’utilisent les équipes de pointe :
- La perte de validation : quand l’amélioration tombe en dessous de 0,01 par tranche de 100 milliards de tokens, c’est un signal fort que l’on approche du plateau.
- La perplexité : si la réduction de perplexité est inférieure à 0,5 % par 10 milliards de tokens supplémentaires, la valeur ajoutée est négligeable.
- Les benchmarks de tâches réelles : si le score MMLU, HumanEval ou GSM8K ne progresse plus de manière statistiquement significative (p > 0,05), arrêtez-vous. Pas besoin de dépenser 32 fois plus pour gagner 1 %.
Google, selon des fuites internes, utilise un critère encore plus simple : « Arrêtez quand le coût de l’entraînement dépasse la valeur ajoutée en inférence. » C’est une décision commerciale, pas technique. Si un modèle sur-entraîné permet de réduire les erreurs de production de 15 %, et que ça évite 200 heures de correction humaine par semaine, alors oui, ça vaut le coup.
Les limites de la loi : quand plus d’entraînement devient dangereux
Les lois d’échelle ne sont pas des lois universelles. Elles supposent que les données sont stables, que le modèle n’oublie rien, et que les tâches restent dans la même distribution.
Or, après 24x de sur-entraînement, des phénomènes étranges apparaissent. Des modèles de 70 milliards de paramètres commencent à oublier des connaissances rares. Ils deviennent trop bons à prédire les mots fréquents… et moins bons à traiter les cas rares. Ils se mettent à généraliser à outrance, à « deviner » des réponses qui n’existent pas dans les données. C’est ce qu’appelle Percy Liang (Stanford) : « une fausse confiance ».
Des tests récents montrent que sur-entraîner un modèle au-delà de 32x peut dégrader sa performance sur des données hors-distribution : des questions de culture locale, des termes techniques nouveaux, des langues rares. La performance sur les benchmarks standard augmente… mais elle chute sur le terrain réel.
Et puis, il y a le coût. En 2026, entraîner un modèle Chinchilla-optimal de 1 000 milliards de paramètres coûte près de 500 millions de dollars. Sur-entraîner ce même modèle à 32x, c’est 16 milliards de dollars. Personne ne peut se le permettre… sauf les géants du cloud.
Le futur : des lois qui s’adaptent
Le prochain pas n’est pas de pousser plus loin les lois d’échelle… mais de les rendre intelligentes.
Google DeepMind prépare Gemini 2.0 avec une méthode d’arrêt adaptatif : le modèle analyse en temps réel la courbe de perte, et décide lui-même quand l’amélioration devient trop faible. Pas de seuil fixe. Pas de règle de 16x ou 32x. Juste une réponse dynamique.
Anthropic vient de lancer « scaling-aware RLHF » : la phase de fine-tuning par renforcement est ajustée en fonction du niveau de scaling du pré-entraînement. Si le modèle a été sur-entraîné, la phase de rétroaction est raccourcie. Si c’est un modèle Chinchilla-optimal, elle est prolongée. C’est la première fois qu’on relie les deux phases.
Et puis, il y a la « Densing Law » de Microsoft : la qualité des données peut remplacer la quantité. Des textes synthétiques, générés par d’autres modèles, peuvent remplacer des milliards de tokens réels. Cela réduit le coût… et évite les biais des données du web.
Qui fait quoi ? Le classement des approches
En 2026, les stratégies se sont divisées en deux camps :
| Approche | Exemples | Sur-entraînement | Avantage | Inconvénient |
|---|---|---|---|---|
| Optimisation Chinchilla | DeepMind, Cohere, Anthropic (pré-2024) | 0x à 1x | Coût minimal, efficacité énergétique | Performance inférieure sur tâches complexes |
| Sur-entraînement modéré | Meta (LLaMA-2), Mistral | 1,5x à 4x | Bonne balance coût/perf | Coût élevé, pas optimal pour les petits budgets |
| Sur-entraînement extrême | Meta (LLaMA-3), Microsoft (Phi-3) | 8x à 32x | Performance maximale en inférence | Coût prohibitif, risque d’oubli |
| Qualité > Quantité | Microsoft (Phi), Anthropic (Claude 3) | 2x à 5x | Moins de données, moins de biais | Difficile à reproduire, dépend du générateur |
Les entreprises qui veulent déployer des modèles dans la production (banques, hôpitaux, services publics) choisissent l’approche modérée. Les entreprises qui veulent battre des records sur les benchmarks (competitions, R&D) choisissent l’extrême. Les chercheurs restent fidèles à Chinchilla… mais ils commencent à changer d’avis.
À vous de décider : quel est votre objectif ?
Si vous êtes un chercheur, entraînez jusqu’à l’optimum Chinchilla. Vous aurez un modèle efficace, reproductible, et facile à analyser.
Si vous êtes une startup avec un budget limité, utilisez des données de qualité et sur-entraînez modérément (2x-4x). Vous obtiendrez un modèle performant sans ruiner votre trésorerie.
Si vous êtes un géant du tech avec des milliards de dollars à dépenser et des millions d’utilisateurs, sur-entraînez. Parce que chaque pourcent de performance en plus = des milliers d’utilisateurs satisfaits, des erreurs évitées, et une réputation protégée.
La loi d’échelle ne vous dit pas quand arrêter. Elle vous dit seulement : « Voici comment ça marche. Maintenant, décidez ce que vous voulez gagner. »
Quelle est la meilleure stratégie pour un modèle de 7 milliards de paramètres ?
Pour un modèle de 7 milliards de paramètres, l’optimum Chinchilla exige environ 140 milliards de tokens. Mais en pratique, sur-entraîner à 200 à 500 milliards de tokens (soit 1,5x à 3,5x) améliore significativement la capacité à raisonner et à éviter les hallucinations. Si vous avez accès à des données de haute qualité (textes synthétiques, manuels, articles scientifiques), vous pouvez atteindre de bons résultats avec seulement 2x l’optimum. Le sur-entraînement à 8x ou plus n’est utile que si vous ciblez des tâches très complexes (ex. : résolution de problèmes mathématiques avancés ou génération de code industriel).
Pourquoi les grands modèles sont-ils plus efficaces en échantillons ?
Parce qu’ils ont une plus grande capacité d’absorption. Un modèle de 70 milliards de paramètres peut stocker et combiner des motifs complexes que le modèle de 7 milliards ne peut pas capturer. Cela signifie qu’il peut apprendre la même chose avec moins d’exemples. C’est comme un médecin expérimenté qui reconnaît une maladie après avoir vu 10 cas, alors qu’un interne en a besoin de 100. La taille du modèle augmente sa « mémoire » et sa capacité à généraliser.
Le sur-entraînement rend-il les modèles plus « biaisés » ?
Oui, mais pas toujours comme on le pense. Le sur-entraînement sur des données du web amplifie les biais répétés (ex. : stéréotypes de genre ou de race). Mais sur-entraîner sur des données synthétiques de qualité peut réduire ces biais. Le vrai risque est la « surconfiance » : le modèle devient trop bon à prédire des réponses courantes, et perd la capacité à dire « je ne sais pas » quand il est dans l’incertitude. C’est plus dangereux que les biais traditionnels.
Est-ce que les lois d’échelle s’appliquent aux modèles multimodaux (image + texte) ?
Oui, mais avec des formules différentes. Les lois d’échelle initiales ne concernaient que le texte. Pour les modèles multimodaux, chaque modalité (image, audio, texte) a sa propre courbe d’échelle. Le défi est d’équilibrer les trois. Un modèle qui a 100 milliards de paramètres pour le texte mais seulement 10 milliards pour l’image sera déséquilibré. Les nouvelles recherches montrent que l’échelle optimale pour l’image est 2 à 3 fois plus élevée que pour le texte. Cela signifie qu’il faut entraîner davantage sur les images que sur le texte pour un bon équilibre.
Les lois d’échelle vont-elles disparaître avec les nouvelles architectures ?
Non. Même les architectures nouvelles - comme les réseaux à mémoire augmentée, les modèles à attention dynamique, ou les architectures hybrides - suivent des lois d’échelle. Ce qui change, c’est la forme de la courbe. Les nouvelles architectures ne changent pas la règle de base : plus de données + plus de paramètres + plus de calcul = meilleure performance. Elles changent simplement la pente. Une architecture efficace rend la courbe plus raide : vous gagnez plus de performance pour le même coût. Mais vous ne pouvez pas l’éviter.
1 Commentaires
Yanick Madiba
Je vois pas l’intérêt de sur-entraîner si ça fait perdre la capacité à dire « je sais pas ». C’est comme un médecin qui affirme tout, même quand il est perdu. Ça rassure personne.
Je préfère un modèle honnête qu’un génie qui ment avec confiance.