ABEJA Tech Blog

中の人の興味のある情報を発信していきます

2022-08-10から1日間の記事一覧

ABEJA GPTモデルにおけるアーキテクチャの工夫

1. はじめに 2. 先行研究からの学び 3. 前提 4. アーキテクチャ変更候補 活性化関数の変更 (SwishGLU) Transformer layerの並列化 biasパラメータ除去 Input-Output Embeddingの共有 (Weight tying) 5. 小規模モデルでの実験 実験設定 Transformer layerの並…