Tag: optimisation GPU

Gains de latence par la compression : Servir des LLM plus petits en production

King Willie
|
mai 27
|
0

Découvrez comment réduire la latence des LLM en production grâce à la compression. Guide pratique sur la quantisation INT8/FP8, la sparsité et les outils comme Red Hat LLM Compressor pour servir des modèles plus petits et plus rapides.