機械を解く

MIT ニュースオフィスの Web サイトでダウンロードできる画像は、クリエイティブコモンズ表示、非営利、改変禁止ライセンスに基づいて、非営利団体、報道機関、および一般の人々に提供されています。提供された画像は、サイズに合わせてトリミングする以外に変更することはできません。画像を複製する場合はクレジットラインを使用する必要があります。以下に提供されていない場合は、画像のクレジットを「MIT」に記載してください。

前の画像次の画像

OpenAI の GPT-3 のような大規模な言語モデルは、詩からプログラミングコードに至るまで人間のようなテキストを生成できる大規模なニューラルネットワークです。大量のインターネットデータを使用してトレーニングされたこれらの機械学習モデルは、少量の入力テキストを取得し、次に来る可能性のあるテキストを予測します。

しかし、これらのモデルができることはそれだけではありません。研究者らは、コンテキスト内学習として知られる興味深い現象を調査しています。この現象では、大規模な言語モデルは、そのタスク用にトレーニングされていないにもかかわらず、少数の例を見ただけでタスクを達成することを学習します。たとえば、誰かがモデルにいくつかの例文とその感情 (肯定的または否定的) を入力し、新しい文を入力するように促すと、モデルは正しい感情を与えることができます。

通常、GPT-3 のような機械学習モデルは、この新しいタスクのために新しいデータを使用して再トレーニングする必要があります。このトレーニングプロセス中、モデルはタスクを学習するための新しい情報を処理するときにパラメーターを更新します。しかし、インコンテキスト学習ではモデルのパラメーターが更新されないため、モデルは何も学習せずに新しいタスクを学習しているように見えます。

MIT、Google Research、スタンフォード大学の科学者たちは、この謎を解明しようと努めています。彼らは、パラメータを更新せずにどのように学習できるかを確認するために、大規模な言語モデルに非常によく似たモデルを研究しました。

研究者らの理論的結果は、これらの大規模なニューラルネットワークモデルが、その内部に埋め込まれたより小さく単純な線形モデルを含むことができることを示しています。次に、大規模なモデルは、より大きなモデル内にすでに含まれている情報のみを使用して、この小さな線形モデルをトレーニングして新しいタスクを完了するための単純な学習アルゴリズムを実装できます。そのパラメータは固定されたままです。

この研究は、コンテキスト内学習の背後にあるメカニズムを理解するための重要な一歩であり、これらの大規模なモデルが実装できる学習アルゴリズムに関するさらなる探求への扉を開くものであると、コンピューターサイエンスの大学院生であり、この現象を調査した論文の筆頭著者であるイーキン・アキュレック氏は述べています。インコンテキスト学習をより深く理解することで、研究者はコストのかかる再トレーニングを必要とせずにモデルが新しいタスクを完了できるようにすることができます。

「通常、これらのモデルを微調整したい場合は、ドメイン固有のデータを収集し、複雑なエンジニアリングを行う必要があります。しかし、現在では、入力と 5 つの例を与えるだけで、必要なことを実現できます。 -コンテキスト学習は、理解する必要がある不当に効率的な学習現象です」とアキュレク氏は言います。

この論文で Akyürek 氏に加わるのは、Google Brain の研究科学者でアルバータ大学のコンピューティング科学教授である Dale Schuurmans 氏です。上級著者であるジェイコブ・アンドレアス氏は、MIT 電気工学・コンピュータサイエンス学部の X コンソーシアム助教授であり、MIT コンピュータサイエンス・人工知能研究所 (CSAIL) のメンバーでもあります。 Tengyu Ma 氏、スタンフォード大学のコンピューターサイエンスと統計学の助教授。そしてGoogle Brainの主任科学者兼研究ディレクターのDanny Zhou氏です。この研究は、学習表現に関する国際会議で発表される予定です。

モデルの中のモデル

機械学習の研究コミュニティでは、多くの科学者が、大規模な言語モデルはその訓練方法によってコンテキスト内学習を実行できると考えるようになったとアキュレク氏は言います。

たとえば、GPT-3 には数千億のパラメーターがあり、Wikipedia の記事から Reddit の投稿に至るまで、インターネット上の膨大な量のテキストを読み取ることでトレーニングされました。したがって、誰かが新しいタスクのモデル例を示すとき、そのトレーニングデータセットには何十億もの Web サイトからのテキストが含まれているため、非常によく似たものをすでに見たことがある可能性があります。新しいタスクの実行方法を学習するのではなく、トレーニング中に見たパターンを繰り返します。

アキュレク氏は、コンテキスト内の学習者は以前に見たパターンに一致しているだけではなく、実際に新しいタスクの実行方法を学習しているのではないかと仮説を立てました。彼と他の人々は、これまでに見たことのない合成データを使用してこれらのモデルにプロンプトを与える実験を行ったところ、モデルがほんの数例からでも学習できることがわかりました。 Akyürek氏らは、おそらくこれらのニューラルネットワークモデルの内部には、新しいタスクを完了するためにモデルを訓練できる小さな機械学習モデルがあるのではないかと考えた。

「これで、これらの大規模モデルで見られた学習現象のほぼすべてが説明できるかもしれません」と彼は言います。

この仮説を検証するために、研究者らはトランスフォーマーと呼ばれるニューラルネットワークモデルを使用しました。これは GPT-3 と同じアーキテクチャを持ちますが、コンテキスト内学習用に特別にトレーニングされています。

この変換器のアーキテクチャを調査することで、彼らは、隠れた状態内で線形モデルを記述できることを理論的に証明しました。ニューラルネットワークは、データを処理する相互接続されたノードの多くの層で構成されています。隠れ状態は、入力層と出力層の間の層です。

彼らの数学的評価は、この線形モデルが変換器の最初の層のどこかに書かれていることを示しています。その後、トランスフォーマーは単純な学習アルゴリズムを実装することで線形モデルを更新できます。

本質的に、モデルはそれ自体の小さいバージョンをシミュレートし、トレーニングします。

隠れ層の探索

研究者らは、変圧器の隠れ層を調べて特定の量を回収しようとする精査実験を使用してこの仮説を調査しました。

「この場合、線形モデルの実際の解を復元しようとしました。そして、パラメータが隠れた状態で書き込まれていることを示すことができました。これは、線形モデルがどこかにあることを意味します。」と彼は言います。

この理論的研究を基礎にして、研究者らは、ニューラルネットワークに 2 つの層を追加するだけで、トランスフォーマーがコンテキスト内学習を実行できるようにできる可能性があります。それが可能になるまでにはまだ多くの技術的な詳細を詰める必要があるとアキュレク氏は警告するが、エンジニアが新しいデータで再トレーニングすることなく新しいタスクを完了できるモデルを作成するのに役立つ可能性がある。

「この論文は、現代の大規模言語モデルの最も注目すべき特性の 1 つである、明示的なトレーニングなしで、入力で与えられたデータから学習する能力に光を当てています。著者らは、線形回帰の簡略化されたケースを使用して、モデルがどのように標準を実装できるかを理論的に示しています。ユーザーの入力を読み取りながらアルゴリズムを学習し、経験的にどの学習アルゴリズムがユーザーの観察された行動に最もよく適合するかを調べます」と、この研究には関与していない Facebook AI Research の研究員である Mike Lewis 氏は述べています。「これらの結果は、モデルがより複雑なタスクをどのように学習できるかを理解するための足がかりであり、研究者が言語モデルのより優れたトレーニング方法を設計してパフォーマンスをさらに向上させるのに役立ちます。」

今後、Akyürek 氏は、今回の研究で研究した線形モデルよりも複雑な関数を使用したコンテキスト内学習の探索を続ける予定です。また、これらの実験を大規模な言語モデルに適用して、その動作が単純な学習アルゴリズムによっても記述されるかどうかを確認することもできます。さらに、コンテキスト内学習を可能にする事前トレーニングデータの種類をさらに深く掘り下げたいと考えています。

「この研究により、人々はこれらのモデルが模範からどのように学習できるかを視覚化できるようになりました。したがって、私の願いは、これがコンテキスト内学習についての一部の人々の見方を変えることです」とアキュレク氏は言います。「これらのモデルは人々が思っているほど愚かではありません。彼らはこれらのタスクを単に記憶するだけではありません。新しいタスクを学習することができます。そして私たちはそれがどのように可能であるかを示しました。」

Motherboard のレポーターである Tatyana Woodall は、MIT の研究者が共同執筆した新しい研究で、わずか数例から新しいタスクの実行を学習できる AI モデルが、これらの新しいタスクを達成するために内部に小さなモデルを作成することが判明したと書いています。「学習は[既存の]知識と絡み合っています」と大学院生のイーキン・アキュレクは説明する。「モデルにパラメータを更新することなく、これらのモデルが実行中にサンプルから学習できることを示しました。」

前の項目次の項目

モデル内のモデル隠れ層の探索

ブログ