Cerebras-GPTがなぜ微妙なのか: Chinchillaスケーリング則に従ってないし訓練不足

著者: Kyo Takano

日付: 2023-03-29

本ページはChatGPTにより、以下の原文を邦訳しました

英語版: https://nice-face-06b.notion.site/Cerebras-GPT-is-Not-Following-the-Chinchilla-Scaling-Law-184662a44ea14dce9c7133c36bf5b390

この記事では、以下のポイントについて説明します。

計算量予算がトークン数とパラメータ数の最適比率に与える影響にもかかわらず、Cerebras-GPTはそれらの間に線形相関があると仮定しています。
これにより、Cerebras-GPTモデルは、Pythiaのような他のモデルと比較して学習不足の状態にあることが説明できます。

1. 計算量予算と比率の間のべき法則

Hoffmann et al.（2022）は、訓練された大規模言語モデルのクロスエントロピー損失を以下のように定式化しました。

$$ L=E+\frac{A}{N^{\alpha}}+\frac{B}{D^{\beta}} $$

ここで、$D$はモデルのパラメータの総数、$N$は訓練用トークンの数、$E$は言語データ固有のデータのエントロピーの推定値（つまり、訓練損失の床）を表します。パラメータ$A$、$B$、$\alpha$、および$\beta$は、観測されたデータ点に適合するように調整されます。

設定されたFLOPsの計算量予算が$C\approx6ND$である場合を想定します。このとき、予測されたパラメータを$G=({\alpha A}/{\beta B})^{\frac{1}{\alpha+\beta}}$で置き換えることができます。これらのパラメータを使用して、最適な$N$および$D$はそれぞれ次のように推定されます：$N\approx G\times(C/6)^{\beta/(\alpha+\beta)}$および$D\approx G^{-1}\times(C/6)^{\alpha/(\alpha+\beta)}$。

したがって、パラメータあたりの最適なトークンの比率$D/N$は以下の式で与えられます。

$$ \frac{D}{N} = G^{-2}\times(C/6)^{\frac{\alpha-\beta}{\alpha+\beta}} = {({\alpha A}/{\beta B})^{\frac{1}{\alpha+\beta}}}^{-2}\times(C/6)^{\frac{\alpha-\beta}{\alpha+\beta}} $$

Cerebrasは、「パラメータあたり20トークンが計算最適」と述べていますが、このことは、この比率が計算量予算$C$に無関係であることを意味するわけではありません。上記の式から明らかなように、この比率は指数関数的に$C^\frac{\alpha-\beta}{\alpha+\beta}$によって変化します。$\alpha>\beta$の場合（Hoffmann et al., 2022）、計算量予算が増えるほど、この比率は増加します。

2. Cerebras-GPTはなぜ訓練不足か

Figure 2. Cerebras-GPT vs. Pythia. Lower curves show greater compute efficiency for a given loss level (Cerebras, 2023)

図2に示されるように、Cerebras-GPTはPythiaやその他のモデルと同じ性能を発揮するためには、著しく多くのパラメータが必要です。これはおそらく、Cerebrasが参照した最大のChinchillaモデルが、実際にはまだコンピュート最適ではなく、学習不足であるためです。