Googleは自社のAIスーパーコンピューターはNvidia A100チップよりも高速で環境に優しいと発表

4月4日（ロイター） - アルファベット(GOOGL.O)傘下のグーグルは火曜日、同社の人工知能モデルのトレーニングに使用しているスーパーコンピューターに関する新たな詳細を発表し、このシステムはエヌビディア社(NVDA)の同等のシステムよりも高速かつ電力効率が高いと述べた。 .O)。

Google は、Tensor Processing Unit (TPU) と呼ばれる独自のカスタムチップを設計しました。同社はこれらのチップを、人工知能トレーニング、つまり人間のようなテキストでクエリに応答したり画像を生成したりするタスクに役立つようにモデルにデータを供給するプロセスに関する同社の作業の 90% 以上に使用している。

Google TPU は現在第 4 世代です。 Googleは火曜日、個々のマシンを接続するために独自に開発した光スイッチを使用して、4,000個以上のチップをスーパーコンピュータにどのようにつなぎ合わせたかを詳述した科学論文を発表した。

Google の Bard や OpenAI の ChatGPT などのテクノロジーを支えるいわゆる大規模言語モデルのサイズが爆発的に増大しており、単一のチップに格納するには大きすぎるため、AI スーパーコンピューターを構築する企業の間では、これらの接続の改善が競争の重要なポイントとなっています。

代わりにモデルを数千のチップに分割し、モデルをトレーニングするために数週間以上連携して動作させる必要があります。 Google の PaLM モデル（これまでで最大の公開言語モデル）は、4,000 チップのスーパーコンピュータのうち 2 台に分割して 50 日間かけてトレーニングされました。

Googleによれば、自社のスーパーコンピュータはチップ間の接続をオンザフライで簡単に再構成できるため、問題を回避したり、パフォーマンスを向上させるために調整したりできるという。

GoogleフェローのNorm Jouppi氏とGoogle Distinguished EngineerのDavid Patterson氏は、このシステムについてブログ投稿で「回路スイッチングにより、故障したコンポーネントの回避が容易になる」と書いている。「この柔軟性により、スーパーコンピューターの相互接続のトポロジーを変更して、ML (機械学習) モデルのパフォーマンスを高速化することも可能になります。」

Googleはスーパーコンピューターの詳細をまだ公表していないが、このスーパーコンピューターは2020年から社内でオクラホマ州メイズ郡のデータセンターにオンラインで稼働している。 Googleによると、新興企業Midjourneyはそのシステムをモデルのトレーニングに使用し、数語のテキストを入力すると新しい画像を生成するという。

Googleは論文の中で、同規模のシステムにおいて、同社のチップは第4世代TPUと同時に発売されたNvidiaのA100チップをベースにしたシステムと比べて最大1.7倍高速で、電力効率が1.9倍高いと述べた。。

Nvidiaの広報担当者はコメントを控えた。

Googleは、H100はGoogleのチップより後に市場に登場し、より新しい技術で作られているため、第4世代をNvidiaの現在の主力チップであるH100と比較しなかったと述べた。

Googleは、Nvidia H100と競合する新しいTPUを開発している可能性があることをほのめかしたが、詳細は明らかにせず、Jouppi氏はロイターに対し、Googleには「将来のチップの健全なパイプライン」があると語った。

当社の基準: トムソン・ロイターの信頼原則。