1. はじめに 2. 先行研究からの学び 3. 前提 4. アーキテクチャ変更候補 活性化関数の変更 (SwishGLU) Transformer layerの並列化 biasパラメータ除去 Input-Output Embeddingの共有 (Weight tying) 5. 小規模モデルでの実験 実験設定 Transformer layerの並…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。