Tag: Transformers

Pre-Norm vs Post-Norm dans les Transformers : Impact sur la stabilité des grands modèles de langage

Pre-Norm vs Post-Norm dans les Transformers : Impact sur la stabilité des grands modèles de langage

Pre-Norm et Post-Norm sont deux façons d'organiser la normalisation dans les Transformers. Pre-Norm permet d'entraîner des modèles très profonds sans échec, tandis que Post-Norm peut offrir une meilleure précision finale. La majorité des grands modèles de langage utilisent désormais Pre-Norm.

Voir plus