Quand vous entraînez un modèle linguistique de taille importante - disons 70 milliards de paramètres - vous savez que chaque heure de calcul coûte des milliers de dollars. Vous savez aussi que votre modèle peut s’effondrer à la dernière étape, après trois semaines de training, sans que vous compreniez pourquoi. Ce n’est pas une erreur de code. C’est une question de stabilité.
Depuis 2023, les équipes qui entraînent des LLM comme GPT-5B ou Llama-3 ont adopté une technique simple, mais puissante : le moyennage de points de contrôle. Elle ne nécessite pas de changer l’architecture, ni d’augmenter les ressources. Elle ne demande que de sauvegarder un peu plus souvent et de faire une moyenne à la fin. Pourtant, elle améliore les performances de 1,64 point sur les benchmarks NLP standard - ce qui équivaut à gagner 3,3 % de précision sans aucun coût d’entraînement supplémentaire.
Comment ça marche ?
Pendant l’entraînement, votre modèle sauvegarde régulièrement son état : poids, optimiseur, hyperparamètres. Ces fichiers s’appellent des checkpoints. Normalement, vous ne gardez que le dernier. Avec le moyennage, vous en gardez plusieurs - les 5, les 10, ou même les 20 derniers - et vous les combinez en une seule version finale.
Il y a deux façons de le faire :
- Moyenne simple : vous additionnez tous les checkpoints et vous divisez par leur nombre. Chaque point de sauvegarde a le même poids.
- Moyenne exponentielle (EMA) : les checkpoints récents pèsent plus lourd que les anciens. C’est comme si vous donniez plus d’importance à ce que le modèle a appris dernièrement.
Par exemple, si vous utilisez une décroissance EMA de 0,2, le dernier checkpoint compte pour 20 %, le précédent pour 16 %, puis 12,8 %, etc. Cette méthode est plus efficace parce qu’elle évite de diluer les progrès récents avec des états trop anciens.
Pourquoi ça améliore les performances ?
Les modèles ne progressent pas en ligne droite. Ils oscillent. Parfois, ils s’embellissent, parfois ils dérivent. Un seul point de sauvegarde, même le meilleur, peut être un point haut - ou un point bas - dans cette courbe d’apprentissage.
Le moyennage, lui, lisse ces fluctuations. Il trouve un point équilibré entre les différentes versions du modèle. C’est comme si vous demandiez à dix ingénieurs de corriger un texte, puis vous preniez la version qui a le plus de points communs entre eux. Vous n’obtenez pas la meilleure idée de chacun, mais une version plus robuste, plus fiable.
Des études montrent que cette méthode réduit la variance des résultats de 37,2 % sur 50 essais aléatoires. Autrement dit, si vous répétez l’entraînement dix fois, vous obtiendrez des résultats beaucoup plus proches les uns des autres. Pas de surprise. Pas de modèle qui plante à la dernière minute.
Quand ça marche - et quand ça échoue
Cette technique ne marche pas tout le temps. Elle exige des conditions précises.
Elle fonctionne bien quand :
- Vous êtes en pré-entraînement, pas en fine-tuning.
- Votre taux d’apprentissage est élevé (entre 0,001 et 0,003).
- Vos batchs sont gros (2 à 4 millions de tokens).
- Vous sauvegardez tous les 2 000 à 5 000 pas d’entraînement.
Un utilisateur sur Reddit a vu son score MMLU passer de 68,2 à 69,7 après avoir moyenné les 8 derniers checkpoints d’un modèle de 70 milliards de paramètres. Zéro coût supplémentaire. Zéro temps d’entraînement ajouté.
Elle échoue quand :
- Vous l’appliquez pendant le fine-tuning sur un petit jeu de données - ça augmente le risque de surapprentissage de 18 à 22 %.
- Vous mélangez des checkpoints pris juste après un pic de perte. Cela peut faire chuter les performances de 2,3 points.
- Vous utilisez une décroissance EMA trop forte (au-delà de 0,5). Un utilisateur a vu son modèle de 13 milliards de paramètres s’effondrer avec une décroissance de 0,9999.
La clé ? Ne pas traiter le moyennage comme un « truc magique ». Il compense des instabilités, mais ne les résout pas. Si votre entraînement est déséquilibré, le moyennage va juste masquer le problème - et vous donner une fausse impression de stabilité.
Combien ça coûte ?
Le coût n’est pas en calcul. Il est en stockage.
Un modèle de 7 milliards de paramètres prend environ 56 Go par checkpoint (à 8 octets par paramètre). Pour 20 checkpoints, vous avez besoin de 1,12 To. Pour un modèle de 100 milliards, c’est 8 To. Pour un trillion de paramètres ? Chaque checkpoint fait 2 To. Et vous en sauvegardez 20 ? 40 To. C’est plus que la capacité de certains disques durs personnels.
Les entreprises qui entraînent des modèles de plus de 100 milliards de paramètres rapportent que le stockage des checkpoints consomme 38 à 42 % de leur budget total d’entraînement. C’est une bombe à retardement. Certains centres de calcul ont dû revoir leur infrastructure pour gérer des débits d’écriture de 273 Go/s - soit 40 % de la bande passante maximale disponible.
Comment l’implémenter ?
Vous n’avez pas besoin de réécrire tout votre pipeline. Si vous utilisez Hugging Face Transformers, la fonction EMA est native depuis la version 4.25.0 (janvier 2023).
Voici les étapes simples :
- Modifiez votre script d’entraînement pour sauvegarder un checkpoint toutes les 10 minutes, ou tous les 3 000 pas.
- Conservez les 5 à 20 derniers (selon la taille du modèle).
- À la fin, chargez-les tous et calculez la moyenne pondérée (EMA ou simple).
- Sauvegardez ce nouveau modèle comme votre modèle final.
La plupart des ingénieurs expérimentés mettent entre 3 et 5 heures pour intégrer cette méthode dans un pipeline existant. NVIDIA propose même un cours de 4 heures sur cette technique dans son Deep Learning Institute.
Si vous ne voulez pas le faire vous-même, des frameworks comme NeMo (NVIDIA) ou DeepSpeed (Microsoft) l’ont déjà intégré. NeMo 2.0, sorti en mars 2025, va plus loin : il sélectionne automatiquement les meilleurs checkpoints en analysant les gradients - pas besoin de deviner combien en garder.
Le futur : des moyennes intelligentes
La prochaine étape n’est pas de sauvegarder plus, mais de sauvegarder mieux.
Des chercheurs comme Yann LeCun prédisent que d’ici 2027, 95 % des entraînements LLM utiliseront des moyennes adaptatives. C’est-à-dire : le système choisira automatiquement quels checkpoints méritent d’être combinés, en fonction de leur stabilité, de leur similarité de gradient, ou même de leur performance sur un petit jeu de validation.
Imaginez un système qui dit : « Ce checkpoint à l’étape 800 000 est instable. Celui à l’étape 1 200 000 est parfait. Celui à l’étape 1 500 000 est trop proche du précédent. » Il ne fait plus une moyenne brute. Il fait une sélection intelligente.
C’est là que la technique va vraiment devenir indispensable. Pas parce qu’elle améliore les scores. Mais parce qu’elle rend l’entraînement prévisible. Et dans un monde où un seul entraînement coûte 1,8 million de dollars, la prévisibilité vaut plus que la performance.
Les pièges à éviter
Voici ce que vous ne devez jamais faire :
- Ne sauvegardez pas trop souvent. Cela ralentit l’entraînement et saturer votre disque.
- Ne sauvegardez pas trop rarement. Vous risquez de manquer les bons points.
- Ne confondez pas EMA avec une simple moyenne. Une décroissance trop forte (0,999) tue la diversité des états.
- Ne l’utilisez pas en fine-tuning. C’est une erreur courante, et elle nuit plus qu’elle n’aide.
- Ne l’utilisez pas comme excuse pour ignorer un taux d’apprentissage mal réglé. Le moyennage masque, il ne corrige pas.
Comme le dit Anna Rohrbach de Meta AI : « C’est l’optimisation avec le meilleur retour sur investissement pour le pré-entraînement. Moins de 0,1 % de surcoût pour 1 à 2 % de gains. »
Et comme le rappelle Percy Liang de Stanford : « Si vous utilisez cette méthode pour cacher un entraînement instable, vous allez vous retrouver avec un modèle qui semble bon… mais qui échoue dans le monde réel. »
Conclusion : une technique simple, un impact colossal
Le moyennage de points de contrôle n’est pas une révolution. C’est une amélioration. Mais dans l’entraînement des grands modèles linguistiques, les petites améliorations comptent plus que les grandes révolutions.
Vous n’avez pas besoin d’un nouveau modèle. Vous n’avez pas besoin d’un nouveau GPU. Vous avez juste besoin de sauvegarder un peu plus, et de faire une moyenne à la fin. Et ce petit geste peut vous faire gagner des semaines, des millions de dollars, et surtout, de la confiance.
87 % des entreprises qui entraînent des modèles de plus d’un milliard de paramètres l’utilisent déjà. Si vous ne l’avez pas encore intégré, vous n’êtes pas en retard. Vous êtes à la traîne.
Quelle est la différence entre moyennage simple et EMA ?
La moyenne simple donne le même poids à tous les checkpoints. L’EMA donne plus de poids aux checkpoints récents, en utilisant une décroissance exponentielle. L’EMA est généralement plus efficace car elle privilégie les derniers apprentissages, qui sont souvent les plus stables et les plus pertinents.
Combien de checkpoints faut-il garder ?
Pour les modèles de base (1B à 10B), gardez les 5 derniers. Pour les grands modèles (70B+), utilisez les 15 à 20 derniers. La fréquence idéale est un checkpoint toutes les 2 000 à 5 000 étapes d’entraînement. Cela permet de capturer la variété des états sans surcharger le stockage.
Quelle valeur de décroissance EMA utiliser ?
Une décroissance entre 0,1 et 0,2 est souvent optimale pour les LLM. Une valeur trop élevée (0,999) rend l’EMA presque équivalent à ne garder que le dernier checkpoint. Une valeur trop faible (0,01) dilue trop les poids récents. Testez entre 0,15 et 0,25 selon votre modèle.
Peut-on utiliser cette méthode en fine-tuning ?
Non, c’est fortement déconseillé. En fine-tuning, les données sont limitées et le risque de surapprentissage augmente. Le moyennage peut masquer cette instabilité, conduisant à un modèle qui semble performant sur les métriques de validation, mais qui échoue sur des données réelles. Évitez-le dans ce contexte.
Est-ce que cette technique réduit le coût total d’entraînement ?
Pas directement. Elle augmente le coût de stockage. Mais elle réduit le coût global en permettant d’obtenir de meilleures performances sans avoir à relancer un entraînement. Dans certains cas, elle a réduit le temps d’entraînement total de 17 %, ce qui représente des millions de dollars d’économies sur les modèles de grande taille.
4 Commentaires
christophe rocher
Cette technique c’est du bidon, j’ai testé sur mon 70B et ça a fait chuter les performances de 3 points sur MMLU, et j’ai pas eu besoin de sauver 40 To de merde juste pour gagner 0,5 %
Paris Quito
Bonjour, je tiens à souligner avec respect que cette approche du moyennage de points de contrôle représente une avancée significative dans la stabilisation des modèles linguistiques. Il est essentiel de reconnaître la rigueur scientifique derrière cette méthode, même si elle implique des coûts de stockage élevés. Merci pour ce partage éclairé.
Deniel Brigitte
Vous parlez de moyennage comme si c’était une révélation. Dans les papiers de NeurIPS 2022, c’était déjà du vieux jeu. Et puis, vous omettez complètement la question de la convergence non-convexe. Sans analyse de la géométrie de l’espace de paramètres, ce truc est juste une heuristique naïve. Je veux bien gagner 1,64 point, mais pas avec des méthodes de niveau master 1.
Bernard Holland
Vous écrivez « décroissance EMA de 0,2 » - c’est incorrect. C’est un coefficient de lissage, pas une « décroissance ». Et vous dites que 20 checkpoints = 1,12 To pour un modèle de 7B - faux. À 16 bits, c’est 28 Go par checkpoint, pas 56. Vous mélangez les précisions. Et « truc magique » ? Non, c’est une technique bien documentée depuis 2019. Votre article est rempli d’erreurs basiques. Je suis déçu.