Tag: Transformers

Architectures Hybrides Récurent-Transformateur : Avancées et Efficacité pour les LLM en 2026

King Willie
|
mai 29
|
0

Découvrez si les architectures hybrides récurrent-transformateur améliorent les LLM. Analyse des designs Mamba-Transformer, comparaisons séquentielles vs parallèles, et études de cas comme Hunyuan-TurboS.

Pre-Norm vs Post-Norm dans les Transformers : Impact sur la stabilité des grands modèles de langage

King Willie
|
janvier 20
|
6

Pre-Norm et Post-Norm sont deux façons d'organiser la normalisation dans les Transformers. Pre-Norm permet d'entraîner des modèles très profonds sans échec, tandis que Post-Norm peut offrir une meilleure précision finale. La majorité des grands modèles de langage utilisent désormais Pre-Norm.