NVIDIA H100 GPU のパフォーマンスがモデルトレーニングの機械学習ベンチマークを打ち砕く

エヌビディア

NVIDIA の Hopper H100 Tensor Core GPU は、今年初めに MLPerf Inference 2.1 で初めてベンチマークに登場しました。 H100 とその前身である A100 があらゆる推論ワークロードを支配していたことに驚く人はいませんでした。 H100 はそれらすべてで世界記録を樹立し、NVIDIA はすべての MLPerf ラウンドのすべてのワークロードを提出した唯一の企業です。

数週間前、新しい MLCommons トレーニング結果セットがリリースされました。今回は MLPerf 2.1 トレーニングに関するもので、これも NVIDIA H100 と A100 が優勢でした。

残念なことに、NVIDIA が推論とトレーニング用の MLPerf ベンチマークスイートを独占しているため、多くの重要な AI 企業による提出や報告が妨げられています。

CPU などの他の分野で見られたように、業界はより多くの組織が参加することで利益を得ることができ、競争とイノベーションが促進されます。機械学習は急激に成長しているため、ベンチマークスイートに幅広く関与することが重要です。ほぼすべての業界セグメントが、幅広いアプリケーションに機械学習を使用しています。使用量が増加すると、モデルのサイズも増加します。 2018 年以来、MLCommons は、MLPerf Training テストラウンドと MLPerf Inference テストラウンドを交互に行うテストラウンドを開催してきました。

2018 年の最初の MLPerf テストから今年の結果までの 4 年間で、機械学習モデルのサイズは 5 桁増加しました。モデルのサイズが増大し、データセットが大きくなるにつれて、MLPerf Training や MLPerf Inference などの標準化されたツールがこれまで以上に重要になっています。機械学習モデルのパフォーマンスを改善するには、その前に測定する必要があります。

MLPerf 2.1 トレーニングベンチマーク

MLPerf Training v2.1 で使用されるベンチマークの概要 ... [+]

MLPerf トレーニングと MLPerf 推論は、上の図に示されているのと同じ 8 つのワークロードを使用します。 Mini Go は強化学習の評価にのみ使用されるため例外です。各ベンチマークテストは、独自の特定のデータセットと品質目標によって定義されます。重要なのは、指定されたデータセットを使用し、指定された品質目標でモデルをトレーニングするのにどれくらいの時間がかかるかです。

MLPerf は、モデルのトレーニングと推論の有効な比較を提供するピアレビュー結果を備えた業界標準のベンチマークであるため、AI と機械学習にとって不可欠です。 Amazon、Arm、Baidu、Google、ハーバード大学、インテル、メタ、マイクロソフト、スタンフォード大学、トロント大学によってサポートされています。

複数の単一モデルが高性能の複数モデルを形成

現実世界の AI アプリケーションは複数のモデルを使用します

単一の入力を満たすために複数の AI モデルが連鎖するのが一般的です。マルチモーダルネットワークの例は、上の図の口頭でのリクエストです。この質問では、答えを導き出すために 10 個の機械学習モデルが必要です。複数のモデルが順番に動作するだけでなく、リアルタイムのソリューションを提供する必要もあります。

一部のクラウドサービスでは、複数のネットワークを使用して、NVIDIA GPU によって高速化されたサービスを提供します。 NVIDIA のネットワークとアプリケーションフレームワークはすべて、MLPerf リポジトリ、NGC (NVIDIA のオンラインコンテナリポジトリ)、および GitHub リポジトリで入手できます。

A100 および H100 のベンチマークトレーニングパフォーマンス

MLPerf トレーニング v2.1 のパフォーマンス

MLPerf Training 2.1 のパフォーマンスチャートに示されているように、H100 は、2019 年の最初の MLPerf 提出時の A100 のパフォーマンスと比較して、BERT ベンチマークで最大 6.7 倍のパフォーマンスを提供しました。

A100 は、最大 2.5 倍のパフォーマンス向上により、記録的な結果と高性能を生み出し続けています。この向上はソフトウェアの最適化の結果です。おそらく、かなり長い間 NVIDIA が提供することになるでしょう。

BERT NLP モデルの H100 の優れたパフォーマンスは、トランスエンジンによるものです。 A100 にはトレーニングエンジンがありません。新しいエンジンは、NVIDIA Hopper FP8 Tensor コアと組み合わせることで、A100 と比較して、大規模な言語モデルで最大 9 倍高速な AI トレーニングと 30 倍高速な AI 推論の高速化を実現します。 H100 は Hopper アーキテクチャに基づいており、第 4 世代の Tensor コアを使用します。

AI モデルのサイズにより、トレーニング速度は非常に重要かつ必要です。 NVIDIA の変換エンジンは、16 ビット浮動小数点精度と新しい 8 ビット浮動小数点データ形式を使用してさらなる速度を実現します。この組み合わせにより、16 ビット浮動小数点と比較して、Tensor コアのスループットが 2 倍増加し、メモリ要件が 2 倍削減されます。

これらの改善と高度な Hopper ソフトウェアアルゴリズムにより、AI のパフォーマンスと機能が高速化され、H100 は数か月ではなく数日または数時間以内にモデルをトレーニングできるようになります。モデルの運用開始が早ければ早いほど、ROI が収益に早く貢献し始めることができます。

ホッパーアーキテクチャは、精度を確保するために FP8 または 16 ビットの計算が必要かどうかを動的に決定できます。トランスフォーマーエンジンはレイヤーごとにトレーニングする際に、データを分析して、精度を下げて使用する必要があるかどうかを判断します。使用の程度によっては、精度の低下により丸め誤差が発生し、モデルの精度に影響を与える可能性があります。

MLPerf トレーニングテストは解決までの時間を測定するため、モデルは高速に実行されるだけでなく、収束する必要もあります。したがって、多くのエラーがモデルの収束を妨げる可能性があることを覚えておくことが重要です。

NVIDIA の変圧器エンジンテクノロジは、BERT のような大規模な変圧器ベースのネットワーク向けに設計されました。ただし、NLP に限定されるものではありません。安定拡散など他の分野にも応用可能です。

Stable Diffusion は、今年リリースされた深層学習の計算集約型のテキストから画像へのモデルです。テキストの説明に基づいて詳細な画像やビデオを生成できます。また、テキストプロンプトを使用したインペイント、アウトペイント、イメージ間の変換の生成などのタスクにも適用できます。

大規模なトレーニングを行う時期が来た

大規模なトレーニングを行う時間... [+]

NVIDIA A100 は、大規模なトレーニングの時間内にすべてのワークロードを実行できる唯一のプラットフォームでした。 NVIDIA は、Mini Go を除き、約 17 分かかったすべてのワークロードを 5 分以内に大規模にトレーニングすることができました。

Mini Go は、非常に計算量の多い強化学習を使用します。 Mini Go をターンバイターンでプレイし、ターンごとにネットワークを通じてロールバックする必要があるため、ネットワークのトレーニングには時間がかかります。

大規模なトレーニングは、A100 がトレーニング用の強固なプラットフォームであり続けていることを示しています。 H100 は、大規模なデータセットや数十億のハイパーパラメータを含む言語モデルなど、最先端のモデル用のソリューションです。

Intel と Habana は記録的なパフォーマンスを達成できませんでしたが、それでもその参加はエコシステムと MLPerf の将来にとって重要でした。

H100 が AI トレーニングのアクセラレータごとのニュース記録を樹立

この図は、A100 に正規化されたアクセラレータごとの相対的な速度向上を示しています。 H100 (プレビュー版) はすべてのベンチマークに対して提出され、それぞれのベンチマークで優れたパフォーマンスを記録しました。 A100 よりも 2.6 倍高速であり、ソフトウェアが大幅に向上しました。

Habana Gaudi2 は Resnet-50 および BERT に提出され、Intel の Sapphire Rapids は DLRM、ResNet-50、および BERT に提出されました。

Habana Gaudi2 は、BERT では A100 よりもわずかに優れたパフォーマンスを示し、ResNet-50 では A100 よりも約 0.75 優れたパフォーマンスを示しました。 Intelは2019年末にHabanaを20億ドルで買収した。 Gaudi2 は、Habana の第 2 世代ディープラーニングプロセッサです。 24 個の tensor コアと 96 GB のメモリを搭載しています。

NVIDIA の AI、ベンチマーク、クラウド担当ディレクターである Dave Salvator 氏は、将来の H100 のパフォーマンスの向上を期待しています。

「H100 は非常に魅力的なパフォーマンスを発揮しました」と彼は言いました。「しかし、将来的には、A100 で行ったように、H100 でもソフトウェアの向上を図るつもりです。これは、H100 をトレーニングに提出する最初のラウンドであり、これが最後ではありません。」

HPC MLPerf 2.0 スーパーコンピューティングのベンチマーク

MLPerf HPC 2.0 のベンチマーク情報 ... [+]

MLPerf HPC 2.0 は、科学アプリケーション用のスーパーコンピューターモデルをトレーニングする時間を測定します。さらに、マルチユーザースーパーコンピューティングシステム用のオプションのスループット測定もあります。このラウンドは、MLPerf HPC の 3 回目の反復でした。トレーニングと推論のための MLPerf と同様に、MLPerf HPC は、スーパーコンピューター上で実行されるワークロードの業界標準のシステムパフォーマンス指標とみなされます。

このラウンドでは、世界最大のスーパーコンピュータのうち 5 社が 20 件の結果を提出しました。デル (初めての提出)、富士通/理化学研究所、Helmholz AI、NVIDIA、およびテキサスアドバンストコンピューティングセンター (TACC) です。

MLPerf HPC v2.0 ベンチマーク

これはベンチマークのバージョン 2.0 ですが、同じ 3 つのワークロードが 1.0 で実行されて以来、大きな変更はありません。 MLPerf HPC ベンチマークは、機械学習技術を採用した 3 つの高性能シミュレーション (Cosmoflow、DeepCAM、OpenCatalyst) のトレーニング時間とスループットを測定します。

気候変動のため、気象と気候のモデリングに関して多くの集中的な作業が行われています。 NVIDIA は、Earth Two と呼ばれる惑星のデジタルツインにも取り組んでいます。この巨大な気候モデルは全世界をシミュレートします。

NVIDIA HPC プラットフォームのパフォーマンスのリーダーシップ

エヌビディア

MLPerf HPC 2.0 には、次の 2 つのパフォーマンスメトリックがあります。

NVIDIA A100 Tensor Core GPU と NVIDIA DGX-A100 SuperPOD はほぼ 3 年前のものですが、MLPerf 2.0 のパフォーマンスは、A100 が依然として HPC ユースケースのトレーニング用の最高パフォーマンスのシステムであることを示しています。

HPC の結果は、DGX SuperPOD の実装である NVIDIA Selene に関するものであり、A100 の可能性を示しています。 NVIDIA テクノロジを使用する他のスーパーコンピューティングサイトも良好なパフォーマンスを実現しています。

まとめ

NVIDIA は、今回および以前のすべての MLPerf トレーニングおよび推論ラウンドですべての AI トレーニングワークロードを実行した唯一の組織であることに言及することが重要です。 2018 年 12 月の最初の MLPerf Training 0.5 から、数週間前にリリースされた最新の MLPerf Training 2.1 まで、一貫したリーダーシップの結果を提供してきました。

トレーニング、推論、HPC に関して、MLPerf は、NVIDIA がすべての深層学習フレームワークに対して最も広範なエコシステムをサポートしていることを証明しました。 NVIDIA GPU がすべての主要なクラウドプロバイダーおよびオンプレミスソリューション用のすべての主要なシステムから入手できることは、顧客にとって有利です。これらのアプリケーションフレームワークにより、顧客はソリューションを迅速に展開できます。

NVIDIA は、ハードウェアの可能性を最大限に拡張するソフトウェアを備えたエンドツーエンドのオープンプラットフォームを備えています。 NVIDIA のフルスタックソリューションには、Merlin や Nemo などのアプリケーションフレームワークが含まれています。 Nemo Megatron サービスを使用すると、カスタムデータセットを使用して巨大な言語モデルを活用できます。

アナリストメモ

Moor Insights & Strategy は、すべてのリサーチ会社やテクノロジー業界アナリスト会社と同様に、テクノロジー企業に有料サービスを提供している、または提供してきたこともあります。これらのサービスには、調査、分析、アドバイス、コンサルティング、ベンチマーク、買収のマッチメイキング、講演スポンサーシップが含まれます。同社は、8×8、Accenture、A10 Networks、Advanced Micro Devices、Amazon、Amazon Web Services、Ambient Scientific、Anuta Networks、Applied Brain Research、Applied Micro、Apstra、Arm、Aruba Networks とこれまで、または現在、有料のビジネス関係を持っています (現在 HPE)、Atom Computing、AT&T、Aura、Automation Anywhere、AWS、A-10 Strategies、Bitfusion、Blaize、Box、Broadcom、C3.AI、Calix、Campfire、Cisco Systems、Clear Software、Cloudera、Clumio、Cognitive Systems、 CompuCom、Cradlepoint、CyberArk、Dell、Dell EMC、Dell Technologies、Diablo Technologies、Dialogue Group、Digital Optics、Dreamium Labs、D-Wave、Echelon、Ericsson、Extreme Networks、Five9、Flex、Foundries.io、Foxconn、Frame (現在) VMware)、富士通、Gen Z Consortium、Glue Networks、GlobalFoundries、Revolve (現 Google)、Google Cloud、Graphcore、Groq、Hiregenics、Hotwire Global、HP Inc.、Hewlett Packard Enterprise、Honeywell、Huawei Technologies、IBM、Infinidat、Infosys 、Inseego、IonQ、IonVR、Inseego、Infosys、Infiot、Intel、Interdigital、Jabil Circuit、Keysight、コニカミノルタ、Lattice Semiconductor、Lenovo、Linux Foundation、Lightbits Labs、LogicMonitor、Luminar、MapBox、Marvell Technology、Mavenir、Marseille Inc、 Mayfair Equity、Meraki (Cisco)、Merck KGaA、Mesophere、Micron Technology、Microsoft、MiTEL、Mojo Networks、MongoDB、MulteFire Alliance、National Instruments、Neat、NetApp、Nightwatch、NOKIA (Alcatel-Lucent)、Nortek、Novumind、NVIDIA、 Nutanix、Nuvia (現 Qualcomm)、onsemi、ONUG、OpenStack Foundation、Oracle、Palo Alto Networks、Panasas、Peraso、Pexip、Pixelworks、Plume Design、PlusAI、Poly (旧 Plantronics)、Portworx、Pure Storage、Qualcomm、Quantinuum、Rackspace 、Rambus、Rayvolt E-Bikes、Red Hat、Renesas、Residio、Samsung Electronics、Samsung Semi、SAP、SAS、Scale Computing、Schneider Electric、SiFive、Silver Peak (現 Aruba-HPE)、SkyWorks、SONY オプティカルストレージ、Splunk、 Springpath (現 Cisco)、Spirent、Splunk、Sprint (現 T-Mobile)、Stratus Technologies、Symantec、Synaptics、Syniverse、Synopsys、Tanium、Telesign、TE Connectivity、TensTorrent、Tobii Technology、Teradata、T-Mobile、Treasure Data、 Twitter、Unity Technologies、UiPath、Verizon Communications、VAST Data、Ventana Micro Systems、Vidyo、VMware、Wave Computing、Wellsmith、Xilinx、Zayo、Zebra、Zededa、Zendesk、Zoho、Zoom、Zscaler。 Moor Insights & Strategy の創設者、CEO、チーフアナリストである Patrick Moorhead は、dMY Technology Group Inc. VI、Dreamium Labs、Groq、Luminar Technologies、MemryX、および Movandi への投資家です。

Moor Insights & Strategy の創設者、CEO、チーフアナリストである Patrick Moorhead は、dMY Technology Group Inc. VI、Dreamium Labs、Groq、Luminar Technologies、MemryX、および Movand への投資家です。

注: Moor Insights & Strategy のライターおよび編集者がこの記事に貢献している可能性があります。

MLPerf 2.1 トレーニングベンチマーク複数の単一モデルによる高性能、複数モデル A100 および H100 ベンチマークトレーニングパフォーマンス大規模なトレーニングにかかる時間 HPC MLPerf 2.0 スーパーコンピューティングベンチマーク NVIDIA HPC プラットフォームパフォーマンスリーダーシップまとめアナリストメモ

ブログ

NVIDIA H100 GPU のパフォーマンスがモデル トレーニングの機械学習ベンチマークを打ち砕く

NVIDIA H100 GPU のパフォーマンスがモデルトレーニングの機械学習ベンチマークを打ち砕く