Tag: optimisation GPU
Gains de latence par la compression : Servir des LLM plus petits en production
- King Willie
- |
- |
- 0
Découvrez comment réduire la latence des LLM en production grâce à la compression. Guide pratique sur la quantisation INT8/FP8, la sparsité et les outils comme Red Hat LLM Compressor pour servir des modèles plus petits et plus rapides.
Voir plus