banner

ニュース

Nov 10, 2023

機械の成長を学ぶ

MIT ニュース オフィスの Web サイトでダウンロードできる画像は、クリエイティブ コモンズ表示、非営利、改変禁止ライセンスに基づいて、非営利団体、報道機関、および一般の人々に提供されています。 提供された画像は、サイズに合わせてトリミングする以外に変更することはできません。 画像を複製する場合はクレジットラインを使用する必要があります。 以下に提供されていない場合は、画像のクレジットを「MIT」に記載してください。

前の画像 次の画像

OpenAI の ChatGPT がいくつかの驚くべき機能を備えていることは周知の事実です。たとえば、チャットボットはシェイクスピアのソネットに似た詩を書いたり、コンピューター プログラムのコードをデバッグしたりできます。 これらの機能は、ChatGPT が構築されている大規模な機械学習モデルによって可能になります。 研究者らは、この種のモデルが十分に大きくなると、並外れた機能が現れることを発見しました。

ただし、より大きなモデルのトレーニングには、より多くの時間と費用が必要になります。 トレーニング プロセスには、数千億のサンプルをモデルに示すことが含まれます。 非常に多くのデータを収集すること自体が複雑なプロセスです。 次に、数十億のパラメータを持つ可能性のあるモデルをトレーニングするために、多数の強力なコンピューターを数日または数週間実行するための金銭的および環境的コストが発生します。

「ChatGPT を実行すると仮定されている規模でモデルをトレーニングするには、1 回のトレーニング実行だけでも数百万ドルかかる可能性があると推定されています。これらのトレーニング方法の効率を改善して、より少ない時間で良いモデルを取得できるようにすることはできますか? 「私たちは、以前にトレーニングされたより小さな言語モデルを活用して、これを行うことを提案します」と、MIT電気工学およびコンピュータサイエンス学科の助教授であり、コンピュータサイエンスおよび人工知能研究所のメンバーであるYoon Kim氏は言います。 (CSAIL)。

Kim 氏と彼の協力者たちは、モデルの以前のバージョンを破棄するのではなく、それを新しいモデルの構成要素として使用します。 彼らの手法は、機械学習を使用して、より小さなモデルがすでに得ている知識をエンコードする方法で、より小さなモデルからより大きなモデルを「成長」させることを学習します。 これにより、より大規模なモデルのトレーニングを高速化できます。

彼らの技術は、新しいモデルを最初からトレーニングする方法と比較して、大規模なモデルのトレーニングに必要な計算コストを約 50% 節約します。 さらに、MIT メソッドを使用してトレーニングされたモデルは、より小さなモデルを使用してより大きなモデルのトレーニングを高速化する他の手法でトレーニングされたモデルと同等、またはそれよりも優れたパフォーマンスを示しました。

巨大なモデルのトレーニングにかかる​​時間を短縮できれば、研究者は少ない費用でより迅速に進歩できると同時に、トレーニング プロセス中に生成される二酸化炭素排出量も削減できます。 また、小規模な研究グループがこれらの大規模なモデルを操作できるようになり、多くの新たな進歩への扉が開かれる可能性があります。

この技術に関する論文の上級著者であるキム氏は、「この種の技術の民主化を目指す中で、トレーニングをより迅速かつ低コストにすることがより重要になるだろう」と述べています。

キム氏とその大学院生ルーカス・トローバ・ヘンニゲン氏は、筆頭著者であるテキサス大学オースティン校の大学院生ペイハオ・ワン氏や、MIT-IBMワトソンAI研究所やコロンビア大学の他の研究者らとともにこの論文を執筆した。 この研究は、学習表現に関する国際会議で発表される予定です。

大きければ大きいほどいい

ChatGPT の中核となる GPT-3 のような大規模な言語モデルは、トランスフォーマーと呼ばれるニューラル ネットワーク アーキテクチャを使用して構築されます。 ニューラル ネットワークは、人間の脳に大まかに基づいており、相互接続されたノード、つまり「ニューロン」の層で構成されています。 各ニューロンにはパラメータが含まれています。パラメータは、ニューロンがデータを処理するために使用するトレーニング プロセス中に学習された変数です。

Transformer アーキテクチャは、このタイプのニューラル ネットワーク モデルが大きくなるにつれて、より良い結果が得られるため、独特です。

「これにより、ますます大規模なデータセットでますます大規模な変圧器をトレーニングしようとする企業の軍拡競争が始まりました。他のアーキテクチャに比べて、変圧器ネットワークはスケーリングによってはるかに優れているようです。なぜこれがそうなのかは正確にはわかりません。」この事件は」とキムは言う。

これらのモデルには、多くの場合、数億または数十億の学習可能なパラメータがあります。 これらすべてのパラメータをゼロからトレーニングするには費用がかかるため、研究者はプロセスを加速しようとしています。

効果的な手法の 1 つは、モデルの成長として知られています。 モデル成長手法を使用すると、研究者はニューロン、または以前のバージョンのネットワークの層全体をコピーし、その上に積み重ねることによって、トランスのサイズを増やすことができます。 新しいニューロンを層に追加してネットワークを広くしたり、ニューロンの層を追加してネットワークを深くしたりできます。

モデルを成長させるためのこれまでのアプローチとは対照的に、拡張されたトランスフォーマー内の新しいニューロンに関連付けられたパラメーターは、より小さなネットワークのパラメーターの単なるコピーではない、と Kim 氏は説明します。 むしろ、それらはより小さなモデルのパラメータの学習された組み合わせです。

成長することを学ぶ

Kim と彼の共同研究者は、機械学習を使用して、より小さなモデルのパラメーターの線形マッピングを学習します。 この線形マップは、一連の入力値 (この場合は小さいモデルのパラメーター) を一連の出力値 (この場合は大きいモデルのパラメーター) に変換する数学的演算です。

彼らが学習型線形成長演算子 (LiGO) と呼ぶこの手法は、データ駆動型の方法で、より小さなネットワークのパラメータからより大きなネットワークの幅と深さを拡張することを学習します。

しかし、より小さいモデルは実際には非常に大きい可能性があり、おそらくパラメータが 1 億個あるため、研究者は 10 億個のパラメータを備えたモデルを作成したいと考えるかもしれません。 そこで、LiGO テクニックは、線形マップを機械学習アルゴリズムが処理できる小さな部分に分割します。

また、LiGO は幅と深さを同時に拡張するため、他の方法よりも効率的になります。 ユーザーは、より小さなモデルとそのパラメータを入力するときに、より大きなモデルの幅と深さをどの程度にするかを調整できるとキム氏は説明します。

彼らの手法を、新しいモデルをゼロからトレーニングするプロセスやモデルの成長手法と比較したところ、すべてのベースラインよりも高速でした。 彼らの方法では、視覚モデルと言語モデルの両方をトレーニングするのに必要な計算コストを約 50% 節約し、同時にパフォーマンスを向上させることができます。

研究者らはまた、より小さな事前トレーニング済みモデルにアクセスできない場合でも、LiGO を使用して変圧器トレーニングを加速できることも発見しました。

「私たちの方法を含むすべての方法が、ランダムな初期化、最初から訓練するベースラインと比較して、どれほど優れた結果を示したかに驚きました。」 キムさんは言う。

将来的には、キム氏と彼の共同研究者らは、LiGO をさらに大きなモデルに適用することを楽しみにしています。

この研究の資金の一部は、MIT-IBM Watson AI Lab、Amazon、IBM Research AI Hardware Center、Rensselaer Polytechnic Institute の計算イノベーションセンター、および米国陸軍研究局によって提供されました。

前の項目 次の項目

大きくなればなるほど、成長することを学ぶことができる
共有