Tag: optimisation GPU

Gains de latence par la compression : Servir des LLM plus petits en production

Gains de latence par la compression : Servir des LLM plus petits en production

Découvrez comment réduire la latence des LLM en production grâce à la compression. Guide pratique sur la quantisation INT8/FP8, la sparsité et les outils comme Red Hat LLM Compressor pour servir des modèles plus petits et plus rapides.

Voir plus