Tag: Pre-Norm
Pre-Norm vs Post-Norm dans les Transformers : Impact sur la stabilité des grands modèles de langage
- King Willie
- |
- |
- 6
Pre-Norm et Post-Norm sont deux façons d'organiser la normalisation dans les Transformers. Pre-Norm permet d'entraîner des modèles très profonds sans échec, tandis que Post-Norm peut offrir une meilleure précision finale. La majorité des grands modèles de langage utilisent désormais Pre-Norm.
Voir plus