著者: Kyo Takano
日付: 2023-03-29
本ページはChatGPTにより、以下の原文を邦訳しました
英語版: https://nice-face-06b.notion.site/Cerebras-GPT-is-Not-Following-the-Chinchilla-Scaling-Law-184662a44ea14dce9c7133c36bf5b390
この記事では、以下のポイントについて説明します。
Hoffmann et al.(2022)は、訓練された大規模言語モデルのクロスエントロピー損失を以下のように定式化しました。
$$ L=E+\frac{A}{N^{\alpha}}+\frac{B}{D^{\beta}} $$
ここで、$D$はモデルのパラメータの総数、$N$は訓練用トークンの数、$E$は言語データ固有のデータのエントロピーの推定値(つまり、訓練損失の床)を表します。パラメータ$A$、$B$、$\alpha$、および$\beta$は、観測されたデータ点に適合するように調整されます。
設定されたFLOPsの計算量予算が$C\approx6ND$である場合を想定します。このとき、予測されたパラメータを$G=({\alpha A}/{\beta B})^{\frac{1}{\alpha+\beta}}$で置き換えることができます。これらのパラメータを使用して、最適な$N$および$D$はそれぞれ次のように推定されます:$N\approx G\times(C/6)^{\beta/(\alpha+\beta)}$および$D\approx G^{-1}\times(C/6)^{\alpha/(\alpha+\beta)}$。
したがって、パラメータあたりの最適なトークンの比率$D/N$は以下の式で与えられます。
$$ \frac{D}{N} = G^{-2}\times(C/6)^{\frac{\alpha-\beta}{\alpha+\beta}} = {({\alpha A}/{\beta B})^{\frac{1}{\alpha+\beta}}}^{-2}\times(C/6)^{\frac{\alpha-\beta}{\alpha+\beta}} $$
Cerebrasは、「パラメータあたり20トークンが計算最適」と述べていますが、このことは、この比率が計算量予算$C$に無関係であることを意味するわけではありません。上記の式から明らかなように、この比率は指数関数的に$C^\frac{\alpha-\beta}{\alpha+\beta}$によって変化します。$\alpha>\beta$の場合(Hoffmann et al., 2022)、計算量予算が増えるほど、この比率は増加します。
Figure 2. Cerebras-GPT vs. Pythia. Lower curves show greater compute efficiency for a given loss level (Cerebras, 2023)
図2に示されるように、Cerebras-GPTはPythiaやその他のモデルと同じ性能を発揮するためには、著しく多くのパラメータが必要です。これはおそらく、Cerebrasが参照した最大のChinchillaモデルが、実際にはまだコンピュート最適ではなく、学習不足であるためです。