Choisir sa GPU pour l'inférence LLM : A100 vs H100 vs offloading CPU

Quand vous déployez un modèle de langage massif comme Llama 3.1 ou Mistral 7B en production, la question n’est pas si vous avez besoin d’une bonne GPU, mais laquelle vous permettra de répondre rapidement, sans casser le budget. Entre l’A100, le H100 et l’offloading CPU, le choix n’est pas une question de mode - c’est une question de performance réelle, de latence et de coût par token généré.

Le H100 n’est pas une simple mise à jour : c’est une révolution

Le NVIDIA H100, sorti en 2022, n’est pas juste un A100 avec plus de cœurs. Il a été conçu pour les modèles de type transformer, ceux qui alimentent les chatbots, les résumés automatiques et les assistants IA. La clé ? Le Transformer Engine. Cette technologie permet au GPU de basculer automatiquement entre les précisions FP8, FP16 et INT8 pendant l’inférence. En pratique, ça veut dire que vous pouvez faire passer un modèle de 70 milliards de paramètres avec 40 % moins de mémoire, et jusqu’à 6 fois plus vite que sur l’A100.

Sur le papier, les chiffres sont impressionnants : 3,35 TB/s de bande passante mémoire HBM3 contre 2,0 TB/s pour l’A100. 14 592 cœurs CUDA contre 6 912. Et surtout, une latence divisée par deux dans les scénarios réels. Quand vous testez Llama 3.1 70B avec vLLM, le H100 génère 3 311 tokens par seconde. L’A100 ? 1 148. Soit 2,8 fois plus vite. Et pourtant, en 2025, le prix horaire du H100 sur AWS ou GCP a chuté de 40 %. Le H100 est maintenant plus rentable par token que l’A100 dans la plupart des cas.

L’A100 : toujours utile, mais en déclin

Si vous avez déjà des serveurs avec des A100, ne les jetez pas. Ils fonctionnent encore très bien - pour certains cas d’usage. Pour les modèles sous 13 milliards de paramètres, avec peu d’utilisateurs simultanés, l’A100 reste un bon choix. Il est plus disponible sur le cloud, les outils sont plus matures, et les erreurs de configuration sont plus rares. Plus de 85 % des frameworks comme vLLM ou TensorRT-LLM prennent en charge l’A100 « hors de la boîte ».

Le problème ? Il ne peut pas suivre la courbe de croissance des modèles. Les nouveaux LLM dépassent désormais les 100 milliards de paramètres. Leur mémoire requise dépasse 80 Go. L’A100 n’a pas la bande passante pour les traiter efficacement. Même avec du quantification, il bute sur les transferts de données. Si vous déployez un modèle en 2025 et que vous prévoyez de le garder 3 ans, l’A100 est déjà une solution dépassée.

Un CPU en argile tente de soutenir un modèle LLM géant, tandis qu'une H100 brillante attend sereinement.

L’offloading CPU : une solution de fortune

Vous n’avez pas les moyens d’un H100 ? Vous avez un serveur avec 128 Go de RAM et vous voulez faire tourner Llama 3 70B ? L’offloading CPU est votre seul recours. Des outils comme vLLM avec PagedAttention ou llama.cpp permettent de déplacer les poids du modèle entre la RAM et la GPU. C’est ingénieux. Et ça marche… en théorie.

En pratique, la latence explose. Sur H100, un token prend 200 ms. Sur CPU offloading, il en faut 2 à 5 secondes. Pour un chatbot, c’est une catastrophe. Imaginez un client qui attend 8 secondes pour une réponse à une question simple. Vous perdez la confiance. Des tests sur Hugging Face montrent que 92 % des utilisateurs abandonnent les applications avec des temps de réponse supérieurs à 3 secondes.

Et ce n’est pas seulement une question de vitesse. Le CPU offloading demande une configuration complexe. Il faut ajuster les tailles de cache, gérer les swaps mémoire, éviter les goulets d’étranglement. Des développeurs sur GitHub ont rapporté 5 à 7 jours de travail pour stabiliser un modèle de 70B. Pourquoi ? Parce que chaque framework, chaque bibliothèque, chaque version de Python agit différemment. Ce n’est pas une solution de production - c’est un hack pour tester un modèle sur un vieux serveur.

Qui gagne vraiment ?

Regardez les chiffres de Gartner en mai 2025 : 62 % des nouveaux déploiements d’inférence LLM utilisent le H100. Seulement 28 % l’A100. Et 10 %, l’offloading CPU. Pourquoi ce déséquilibre ? Parce que les entreprises ne veulent plus payer pour des performances insuffisantes. Elles veulent du throughput, de la concurrence, et des réponses en temps réel.

Un ingénieur dans une banque à Chicago a partagé sur le forum NVIDIA : « Sur H100, notre chatbot gère 37 utilisateurs simultanés sans dépasser 2 secondes de latence. Sur A100, on se bloquait à 22. » C’est ça, la différence. Pas une question de TFLOPS abstraits. Une question de clients qui attendent.

Et si vous pensez que l’AMD MI300X ou les TPU v5p de Google vont détrôner le H100 ? Les benchmarks de juin 2025 montrent le contraire. Le MI300X est 15 % moins cher, mais il ne fait que 70 % du travail du H100. Les TPU v5p sont rapides, mais seulement pour certains modèles. Le H100, lui, fonctionne avec tout : Llama, Mistral, Qwen, Claude… sans changement de code.

Trois chemins en argile représentent les options d'inférence : H100 fluide, A100 lent, et offloading CPU en ruines.

Que faire en 2025 ?

Voici votre guide de décision :

  • Vous déployez un modèle de plus de 30B de paramètres avec plus de 10 utilisateurs simultanés ? H100. Point final.
  • Vous testez un modèle de 7B à 13B, sur un budget serré, sans contrainte de latence ? L’A100 est encore acceptable, mais planifiez sa migration.
  • Vous voulez juste faire tourner un modèle sur votre PC pour voir si ça marche ? L’offloading CPU peut vous aider. Mais ne le mettez jamais en production.

Si vous commencez un nouveau projet en 2025, choisissez le H100. Même si le prix initial est plus élevé, le coût par token est plus bas, la latence est plus faible, et vous évitez de devoir refaire tout votre système dans deux ans. Les modèles deviennent plus gros, plus gourmands. Le H100 est la dernière GPU capable de les suivre sans compromis.

Et si vous êtes dans une entreprise qui utilise encore des A100 ? Faites un audit. Combien de tokens par heure produisez-vous ? À quel coût ? Comparez avec le prix d’un H100 sur le cloud. Vous serez surpris de voir que vous perdez plus d’argent en inefficacité qu’en économisant sur le matériel.

Le futur est déjà là

NVIDIA vient de lancer le H100 Turbo - une version améliorée avec un meilleur refroidissement pour les clusters denses. Google et AMD avancent, mais ils jouent au rattrapage. IDC prédit que d’ici 2027, plus de 75 % des déploiements LLM en production utiliseront des GPU de la famille H100 ou équivalents.

L’offloading CPU ne disparaîtra pas. Il restera un outil pour les chercheurs, les étudiants, les petits projets. Mais pour les applications réelles - celles qui génèrent de la valeur, du revenu, de la confiance - le H100 est devenu la norme. Pas parce que c’est cher. Parce que c’est le seul qui ne vous laisse pas tomber.

Le H100 est-il vraiment plus rentable que l’A100 pour l’inférence LLM ?

Oui, dans la plupart des cas. Même si le H100 coûte 1,7 fois plus cher par heure sur le cloud, il génère jusqu’à 2,8 fois plus de tokens par seconde. Cela signifie que le coût par token est jusqu’à 45 % plus bas. Pour un chatbot qui traite 10 000 requêtes par jour, cela représente des économies de plusieurs milliers de dollars par mois.

Puis-je utiliser un A100 pour un modèle comme Llama 3.1 70B ?

Techniquement, oui. Mais vous aurez une latence élevée, une capacité de concurrence limitée, et vous ne pourrez pas utiliser les optimisations FP8 du Transformer Engine. Vous perdrez entre 60 % et 70 % de performance par rapport au H100. Ce n’est pas une erreur, mais c’est une décision coûteuse à long terme.

L’offloading CPU peut-il remplacer une GPU pour une application en production ?

Non. Les tests de MLPerf montrent que l’offloading CPU augmente la latence de 3 à 10 fois. Pour un modèle de 7B, vous passerez de 200 ms à 2-5 secondes par token. Les utilisateurs abandonnent les applications après 3 secondes. C’est une solution de développement, pas de production.

Le H100 nécessite-t-il des compétences techniques spécifiques pour être optimisé ?

Oui. Pour tirer parti du Transformer Engine et de la précision FP8, vous devez ajuster votre pipeline d’inférence. Cela prend généralement 2 à 4 semaines de travail pour les équipes expérimentées. Mais une fois configuré, le gain de performance est automatique et constant. Les outils comme TensorRT-LLM facilitent ce processus.

Qu’en est-il des alternatives comme l’AMD MI300X ou les TPU v5p ?

L’AMD MI300X est 15 % moins cher mais 30 % moins performant pour les modèles transformer. Les TPU v5p de Google sont rapides, mais uniquement pour certains modèles comme Gemini, et ils manquent de support dans les frameworks populaires comme vLLM. Le H100 reste le seul qui offre un bon compromis entre performance, compatibilité et écosystème.

Vaut-il mieux louer un H100 sur le cloud ou l’acheter ?

Pour la plupart des entreprises, louer est la meilleure option. Le H100 est très cher à acheter (plus de 30 000 $ l’unité), et les mises à jour logicielles sont constantes. Avec le cloud, vous payez seulement ce que vous utilisez, et vous avez toujours accès aux dernières optimisations. L’achat n’a de sens que si vous avez un volume d’inférence très stable et élevé sur plusieurs années.

2 Commentaires

George Alain Garot

George Alain Garot

Le H100 ? Bien sûr. Mais tu oublies que 80 % des entreprises françaises n’ont même pas accès à un GPU de cette classe - elles galèrent avec des RTX 4090 overclockées et des scripts Python bidouillés. Tu parles de rentabilité comme si tout le monde avait un budget Google. Moi, j’ai vu un SaaS local qui utilisait un A100 de 2021 pour faire tourner un Mistral 7B en prod… et ça marchait. Pas parfait, mais suffisamment bien pour ne pas se faire virer par les clients. Le H100, c’est le Ferrari du LLM. Mais certains préfèrent la 2CV… si elle roule.

Yann Cadoret

Yann Cadoret

Le H100 est plus rentable par token que lA100 cest vrai mais la latence sur CPU offloading nest pas toujours de 2 a 5 secondes ca depend de la taille du cache et de la frequence de la RAM

Écrire un commentaire