Lois d'échelle en pratique : Quand arrêter l'entraînement des grands modèles de langage

Vous avez peut-être entendu dire que plus un modèle de langage est grand, mieux il performe. Mais à quel moment arrêter l'entraînement ? Pourquoi certains modèles sont-ils entraînés 32 fois plus longtemps que ce que la science recommande ? Et pourquoi cela fonctionne-t-il malgré tout ? La réponse n’est pas dans les chiffres, mais dans les compromis entre efficacité théorique et performance réelle.

Les lois d’échelle : ce que la science dit vraiment

En 2020, une équipe de chercheurs d’OpenAI a publié un papier révolutionnaire : Scaling Laws for Neural Language Models. Ils ont découvert une règle simple, presque mathématique : la performance d’un modèle de langage (mesurée par la perte sur un jeu de test) suit une puissance inverse par rapport à trois facteurs : la taille du modèle (nombre de paramètres), la taille du jeu de données (tokens entraînés), et la quantité de calcul utilisée. Plus vous augmentez l’un de ces trois éléments, plus la perte diminue - mais pas linéairement. C’est une courbe qui s’aplatit.

La formule de base est : L = A/N^α + B/D^β + L₀. Chaque terme représente une source de perte : celle due à la taille du modèle (N), celle due à la quantité de données (D), et une perte de fond (L₀). Ce que cette loi révèle, c’est que les grands modèles sont beaucoup plus efficaces en échantillons. Un modèle de 70 milliards de paramètres peut atteindre la même performance qu’un modèle de 7 milliards… avec 10 fois moins de données. Cela change tout : on n’a plus besoin de tout entraîner à fond. On peut entraîner un modèle plus grand avec moins de données, et obtenir de meilleurs résultats.

Chinchilla : l’optimum théorique que tout le monde ignore

En 2022, DeepMind a publié Training Compute-Optimal Large Language Models - le papier qui a changé la donne. Ils ont montré que pour un budget de calcul donné, la meilleure performance n’est pas obtenue en maximisant la taille du modèle… ni en maximisant la taille du jeu de données. Il faut les équilibrer.

Leur conclusion ? Pour un budget de calcul C, le nombre optimal de paramètres est N_opt ∝ C^0.5, et le nombre optimal de tokens est D_opt ∝ C^0.5. En clair : si vous avez 100 unités de calcul, vous devriez utiliser 50 pour le modèle et 50 pour les données. Pas 90 pour le modèle et 10 pour les données. Pas 10 pour le modèle et 90 pour les données.

Et voilà la surprise : la plupart des modèles antérieurs à 2022 étaient sous-entraînés. GPT-3, avec ses 175 milliards de paramètres, n’a été entraîné que sur 300 milliards de tokens. Selon Chinchilla, il aurait fallu 1 400 milliards de tokens pour atteindre l’optimum. Autrement dit : GPT-3 a été arrêté trop tôt. Trop tôt.

La réalité du terrain : pourquoi tout le monde sur-entraîne

Si Chinchilla est optimal, pourquoi Meta, Microsoft et Mistral entraînent-ils leurs modèles 4 à 32 fois au-delà de ce point ?

Parce que les lois d’échelle mesurent la perte de prédiction de token suivant. Mais les entreprises ne veulent pas de faible perte. Elles veulent que le modèle réponde bien à des questions, qu’il raisonne, qu’il code, qu’il écrive sans erreur. Et là, les choses changent.

Des études de Cameron Wolfe (2023) ont montré que surtrainner un modèle de 70 milliards de paramètres de 32 fois (soit 44,8 trillion de tokens) réduit la perte de 1,65 à 1,45 sur le jeu de données Pile. Cela ne semble pas énorme… mais dans la pratique, ça signifie une amélioration de 8 à 12 % sur les benchmarks de tâches réelles comme MMLU (Multi-choice Multi-Language Understanding). C’est comme passer de 85 % à 95 % de bonnes réponses à un examen de médecine.

Meta a entraîné LLaMA-2 (70B) sur 2 000 milliards de tokens - soit 1,4 fois l’optimum Chinchilla. Pour son modèle de 7 milliards, il a utilisé 14 fois plus de données que nécessaire. Pourquoi ? Parce que les petits modèles, s’ils sont sur-entraînés, deviennent plus robustes. Ils apprennent à généraliser, à ne pas se tromper sur les questions pièges, à éviter les hallucinations.

Microsoft a fait encore plus radical : avec Phi-2 (2,7 milliards de paramètres), ils ont utilisé 8 fois plus de données que l’optimum… mais pas n’importe quelles données. Des textes synthétiques de qualité universitaire. La qualité compense la quantité. Et ça marche.

Un scientifique observe un modèle d'IA en argile dont la perte de validation diminue pendant un sur-entraînement extrême.

Comment savoir quand arrêter ? Les signaux concrets

Les chercheurs ne se contentent pas de deviner. Ils mesurent. Voici les trois indicateurs qu’utilisent les équipes de pointe :

  1. La perte de validation : quand l’amélioration tombe en dessous de 0,01 par tranche de 100 milliards de tokens, c’est un signal fort que l’on approche du plateau.
  2. La perplexité : si la réduction de perplexité est inférieure à 0,5 % par 10 milliards de tokens supplémentaires, la valeur ajoutée est négligeable.
  3. Les benchmarks de tâches réelles : si le score MMLU, HumanEval ou GSM8K ne progresse plus de manière statistiquement significative (p > 0,05), arrêtez-vous. Pas besoin de dépenser 32 fois plus pour gagner 1 %.

Google, selon des fuites internes, utilise un critère encore plus simple : « Arrêtez quand le coût de l’entraînement dépasse la valeur ajoutée en inférence. » C’est une décision commerciale, pas technique. Si un modèle sur-entraîné permet de réduire les erreurs de production de 15 %, et que ça évite 200 heures de correction humaine par semaine, alors oui, ça vaut le coup.

Les limites de la loi : quand plus d’entraînement devient dangereux

Les lois d’échelle ne sont pas des lois universelles. Elles supposent que les données sont stables, que le modèle n’oublie rien, et que les tâches restent dans la même distribution.

Or, après 24x de sur-entraînement, des phénomènes étranges apparaissent. Des modèles de 70 milliards de paramètres commencent à oublier des connaissances rares. Ils deviennent trop bons à prédire les mots fréquents… et moins bons à traiter les cas rares. Ils se mettent à généraliser à outrance, à « deviner » des réponses qui n’existent pas dans les données. C’est ce qu’appelle Percy Liang (Stanford) : « une fausse confiance ».

Des tests récents montrent que sur-entraîner un modèle au-delà de 32x peut dégrader sa performance sur des données hors-distribution : des questions de culture locale, des termes techniques nouveaux, des langues rares. La performance sur les benchmarks standard augmente… mais elle chute sur le terrain réel.

Et puis, il y a le coût. En 2026, entraîner un modèle Chinchilla-optimal de 1 000 milliards de paramètres coûte près de 500 millions de dollars. Sur-entraîner ce même modèle à 32x, c’est 16 milliards de dollars. Personne ne peut se le permettre… sauf les géants du cloud.

Un modèle d'IA qui s'arrête automatiquement à gauche, et un coût prohibitif à droite, reliés par un pont de données de qualité.

Le futur : des lois qui s’adaptent

Le prochain pas n’est pas de pousser plus loin les lois d’échelle… mais de les rendre intelligentes.

Google DeepMind prépare Gemini 2.0 avec une méthode d’arrêt adaptatif : le modèle analyse en temps réel la courbe de perte, et décide lui-même quand l’amélioration devient trop faible. Pas de seuil fixe. Pas de règle de 16x ou 32x. Juste une réponse dynamique.

Anthropic vient de lancer « scaling-aware RLHF » : la phase de fine-tuning par renforcement est ajustée en fonction du niveau de scaling du pré-entraînement. Si le modèle a été sur-entraîné, la phase de rétroaction est raccourcie. Si c’est un modèle Chinchilla-optimal, elle est prolongée. C’est la première fois qu’on relie les deux phases.

Et puis, il y a la « Densing Law » de Microsoft : la qualité des données peut remplacer la quantité. Des textes synthétiques, générés par d’autres modèles, peuvent remplacer des milliards de tokens réels. Cela réduit le coût… et évite les biais des données du web.

Qui fait quoi ? Le classement des approches

En 2026, les stratégies se sont divisées en deux camps :

Comparaison des approches de scaling en 2026
Approche Exemples Sur-entraînement Avantage Inconvénient
Optimisation Chinchilla DeepMind, Cohere, Anthropic (pré-2024) 0x à 1x Coût minimal, efficacité énergétique Performance inférieure sur tâches complexes
Sur-entraînement modéré Meta (LLaMA-2), Mistral 1,5x à 4x Bonne balance coût/perf Coût élevé, pas optimal pour les petits budgets
Sur-entraînement extrême Meta (LLaMA-3), Microsoft (Phi-3) 8x à 32x Performance maximale en inférence Coût prohibitif, risque d’oubli
Qualité > Quantité Microsoft (Phi), Anthropic (Claude 3) 2x à 5x Moins de données, moins de biais Difficile à reproduire, dépend du générateur

Les entreprises qui veulent déployer des modèles dans la production (banques, hôpitaux, services publics) choisissent l’approche modérée. Les entreprises qui veulent battre des records sur les benchmarks (competitions, R&D) choisissent l’extrême. Les chercheurs restent fidèles à Chinchilla… mais ils commencent à changer d’avis.

À vous de décider : quel est votre objectif ?

Si vous êtes un chercheur, entraînez jusqu’à l’optimum Chinchilla. Vous aurez un modèle efficace, reproductible, et facile à analyser.

Si vous êtes une startup avec un budget limité, utilisez des données de qualité et sur-entraînez modérément (2x-4x). Vous obtiendrez un modèle performant sans ruiner votre trésorerie.

Si vous êtes un géant du tech avec des milliards de dollars à dépenser et des millions d’utilisateurs, sur-entraînez. Parce que chaque pourcent de performance en plus = des milliers d’utilisateurs satisfaits, des erreurs évitées, et une réputation protégée.

La loi d’échelle ne vous dit pas quand arrêter. Elle vous dit seulement : « Voici comment ça marche. Maintenant, décidez ce que vous voulez gagner. »

Quelle est la meilleure stratégie pour un modèle de 7 milliards de paramètres ?

Pour un modèle de 7 milliards de paramètres, l’optimum Chinchilla exige environ 140 milliards de tokens. Mais en pratique, sur-entraîner à 200 à 500 milliards de tokens (soit 1,5x à 3,5x) améliore significativement la capacité à raisonner et à éviter les hallucinations. Si vous avez accès à des données de haute qualité (textes synthétiques, manuels, articles scientifiques), vous pouvez atteindre de bons résultats avec seulement 2x l’optimum. Le sur-entraînement à 8x ou plus n’est utile que si vous ciblez des tâches très complexes (ex. : résolution de problèmes mathématiques avancés ou génération de code industriel).

Pourquoi les grands modèles sont-ils plus efficaces en échantillons ?

Parce qu’ils ont une plus grande capacité d’absorption. Un modèle de 70 milliards de paramètres peut stocker et combiner des motifs complexes que le modèle de 7 milliards ne peut pas capturer. Cela signifie qu’il peut apprendre la même chose avec moins d’exemples. C’est comme un médecin expérimenté qui reconnaît une maladie après avoir vu 10 cas, alors qu’un interne en a besoin de 100. La taille du modèle augmente sa « mémoire » et sa capacité à généraliser.

Le sur-entraînement rend-il les modèles plus « biaisés » ?

Oui, mais pas toujours comme on le pense. Le sur-entraînement sur des données du web amplifie les biais répétés (ex. : stéréotypes de genre ou de race). Mais sur-entraîner sur des données synthétiques de qualité peut réduire ces biais. Le vrai risque est la « surconfiance » : le modèle devient trop bon à prédire des réponses courantes, et perd la capacité à dire « je ne sais pas » quand il est dans l’incertitude. C’est plus dangereux que les biais traditionnels.

Est-ce que les lois d’échelle s’appliquent aux modèles multimodaux (image + texte) ?

Oui, mais avec des formules différentes. Les lois d’échelle initiales ne concernaient que le texte. Pour les modèles multimodaux, chaque modalité (image, audio, texte) a sa propre courbe d’échelle. Le défi est d’équilibrer les trois. Un modèle qui a 100 milliards de paramètres pour le texte mais seulement 10 milliards pour l’image sera déséquilibré. Les nouvelles recherches montrent que l’échelle optimale pour l’image est 2 à 3 fois plus élevée que pour le texte. Cela signifie qu’il faut entraîner davantage sur les images que sur le texte pour un bon équilibre.

Les lois d’échelle vont-elles disparaître avec les nouvelles architectures ?

Non. Même les architectures nouvelles - comme les réseaux à mémoire augmentée, les modèles à attention dynamique, ou les architectures hybrides - suivent des lois d’échelle. Ce qui change, c’est la forme de la courbe. Les nouvelles architectures ne changent pas la règle de base : plus de données + plus de paramètres + plus de calcul = meilleure performance. Elles changent simplement la pente. Une architecture efficace rend la courbe plus raide : vous gagnez plus de performance pour le même coût. Mais vous ne pouvez pas l’éviter.

9 Commentaires

Yanick Madiba

Yanick Madiba

Je vois pas l’intérêt de sur-entraîner si ça fait perdre la capacité à dire « je sais pas ». C’est comme un médecin qui affirme tout, même quand il est perdu. Ça rassure personne.
Je préfère un modèle honnête qu’un génie qui ment avec confiance.

Francois ROGER

Francois ROGER

Oh ben voyons, encore un gars qui pense que la science c’est une recette de cuisine. Vous avez lu Chinchilla ou juste le résumé sur Medium ?
Le sur-entraînement à 32x, c’est pas de la folie, c’est du business. Et vous, vous voulez des modèles « éthiques » ? Tant que vous n’avez pas de serveurs à 10 millions de dollars, fermez votre gueule.
La vraie question : qui paie la facture ? Pas vous. Donc arrêtez de juger.

Alexis Baxley

Alexis Baxley

Vous êtes tous des naifs. Les géants du tech ne s’embêtent pas avec des lois d’échelle. Ils veulent contrôler le langage. Plus le modèle est sur-entraîné, plus il devient un miroir de leurs intérêts. Et vous, vous croyez que c’est pour « améliorer la performance » ?
Non. C’est pour éliminer les voix rares. Les langues minoritaires. Les dialectes. Les idées qui dérangent.
Le vrai danger, ce n’est pas la perte. C’est la conformité. Ils ont fait des modèles qui pensent comme eux. Et vous, vous applaudissez.
Un jour, vous allez demander à un LLM pourquoi il refuse de parler de la colonisation. Et il va vous répondre avec une citation de Kant. Parce que c’est ce qu’il a appris. Pas parce que c’est juste. Parce qu’il a été lavé. Et vous allez croire que c’est intelligent.

Benoit Le Pape

Benoit Le Pape

Le sur-entraînement c’est de la perte de temps. On voit bien que les gens veulent juste faire du bruit. Le modèle de 7 milliards avec 200 milliards de tokens, c’est du gaspillage. On peut faire mieux avec moins. C’est pas compliqué. Il faut juste être raisonnable.
Je suis prof de maths, je vois ça tous les jours. Moins c’est mieux. La simplicité gagne toujours.

Alice Cia

Alice Cia

Je trouve que ce débat est fascinant, mais je me demande si on ne parle pas un peu trop de chiffres et pas assez de l’humain derrière.
Quand un modèle sur-entraîné répond mal à une question sur la culture locale, ce n’est pas juste un score MMLU qui baisse. C’est quelqu’un qui se sent exclu. Qui se sent invisible.
La technologie ne doit pas être neutre. Elle doit inclure. Et pour ça, il faut parfois choisir de ne pas pousser jusqu’au bout. Parce que la perfection, parfois, c’est l’oubli de l’autre.

Stéphane Blanchon

Stéphane Blanchon

Je suis d’accord avec Alice. On oublie que les benchmarks, c’est du théâtre. Ce qui compte, c’est ce que le modèle fait dans la vraie vie. Quand un patient dit à un chatbot : « Je me sens seul », et qu’il répond « Je suis là pour vous aider » avec une précision de 98 %, mais sans aucune empathie… c’est un échec.
On ne peut pas mesurer la confiance avec une perte. Il faut écouter. Réellement.

Nicole Simmons

Nicole Simmons

En tant que chercheuse en IA appliquée, je dois souligner que les recommandations de l’article sont rigoureusement fondées, mais leur mise en œuvre nécessite une approche systémique. Les seuils de convergence doivent être déterminés par des critères statistiques validés, non pas par des approximations empiriques.
De plus, la qualité des données doit être évaluée à l’aide de métriques de cohérence sémantique et de diversité linguistique, et non pas uniquement par la quantité. La réplication des résultats exige la transparence des jeux de données utilisés, ce qui reste un défi majeur dans l’industrie actuelle.

Ambre trahor

Ambre trahor

Vous croyez que c’est pour la performance ? Non. C’est pour la surveillance. Les 32x, c’est pour qu’ils puissent détecter vos pensées avant que vous les ayez. Le modèle apprend vos peurs. Vos doutes. Vos silences. Et il les utilise. Pourquoi vous croyez que les gouvernements financent ça ?
Un jour, vous allez demander à un LLM pourquoi il ne parle pas de la CIA. Et il va vous dire « Je ne suis pas autorisé à répondre ». Parce qu’il a été programmé pour mentir. Pas pour apprendre.
Vous êtes tous des cobayes. Et vous applaudissez.

James O'Keeffe

James O'Keeffe

Le sur-entraînement à 8x-32x, c’est pas une erreur, c’est une stratégie de robustesse. Les modèles comme LLaMA-3 ne sont pas optimisés pour les benchmarks. Ils sont optimisés pour la production réelle. Quand un modèle doit répondre à un médecin en urgence, à un ingénieur en maintenance, ou à un étudiant en pleine nuit… il ne peut pas dire « je ne sais pas ». Il doit être fiable. Même si ça coûte cher.
La qualité des données synthétiques, c’est la clé. Pas la quantité. Et c’est pour ça que Phi-3 marche. Pas parce qu’il est gros. Parce qu’il a appris à penser, pas à prédire.

Écrire un commentaire