s_ota on Nostr: Scaling Law ...
Scaling Law は、計算資源(FLOPS)、パラメータ(NNの大きさ)、データセット(Wikipediaなどのテキスト)を増加させると、べき乗則でスムーズに言語モデルの性能が向上するという話です。
(並列化を考慮していない)普通のアルゴリズムだと、どこかがボトルネックになってべき乗則がなりたたなくなる(グラフがフラットになる)ことが多いですが、Transformer の場合は今の所それが見つかっていない、という風に自分は理解しています。
こちらも参考になるかもしれません。
https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-language-models
(並列化を考慮していない)普通のアルゴリズムだと、どこかがボトルネックになってべき乗則がなりたたなくなる(グラフがフラットになる)ことが多いですが、Transformer の場合は今の所それが見つかっていない、という風に自分は理解しています。
こちらも参考になるかもしれません。
https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-language-models