• 会員限定
  • 2024/05/20 掲載

生成AIが「爆速化」、30倍高速のNVIDIAの次世代GPU「Blackwell」がもたらすヤバさ

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
会員になると、いいね!でマイページに保存できます。
GPT-4を超える大規模言語モデル(LLM)が乱立する「ポストGPT-4」フェーズに突入した生成AI市場だが、生成AIを爆速化する次世代GPUの開発競争にも拍車がかかっている。トップを走るNVIDIAは、次世代GPU「Blackwell(ブラックウェル)」を発表。前世代と比べ、最大30倍のパフォーマンス向上を実現するとともに、コストとエネルギー消費を1/25に抑えることに成功したという。一方、スタートアップの動きも活発化しており、GroqはChatGPTを13倍高速化できるGPUの開発を終え、すでに販売拡大に乗り出している。激化するGPU開発競争、その最前線を追ってみたい。
執筆:細谷 元
photo
NVIDIAの次世代GPUアーキテクチャー「Blackwell」

NVIDIAのAI専用GPU「Blackwell(ブラックウェル)」とは

1ページ目を1分でまとめた動画
 生成AI市場は、GPT-4を超える大規模言語モデル(LLM)が乱立する「ポストGPT-4」フェーズに突入した。これと同時に起こっているのが、AIモデルのトレーニング/推論をさらに加速させる次世代GPUの開発競争の激化だ。

 NVIDIAは2024年3月、次世代GPU「Blackwell(ブラックウェル)」を発表。Blackwellは、AI処理のタスクにおいて、前世代比で25倍もの低コストと低消費電力を実現したとされる。また推論ワークロードにおいては、前世代に比べ最大30倍のパフォーマンス向上を達成したという。

 Blackwellは、初のアフリカ系アメリカ人としてアメリカ国立科学アカデミーに選出された数学者、デイビッド・ハロルド・ブラックウェル氏にちなんで名付けられたモデル。2080億個ものトランジスタを搭載し、TSMCのカスタムメイドの4ナノメートルプロセスで製造される。

 特筆すべきは、Blackwellが大規模言語モデル用に特化したGPUであるという点だろう。まず、AIモデルの学習と推論を高速化するための第2世代トランスフォーマーエンジンを搭載。AIの演算をより効率的に行える工夫がなされており、同じメモリ量でより大きなAIモデルを扱えるようになったほか、演算能力とモデルサイズを2倍に拡張できるようになったという。

 また、LLM向けに第5世代のNVLinkネットワーキング技術も搭載されている。NVLinkとは、NVIDIA社が開発した高速なGPU間通信技術。この最新バージョンのNVLinkにより、最大576個のGPU間で高速かつシームレスにデータをやり取りできるようになる。これにより、あたかも1つの巨大なGPUで処理しているかのように、効率的にLLMの学習や推論を行うことが可能になるのだ。

 Blackwellはマイクロソフト、アマゾン、メタ、グーグル、OpenAIなどの主要なクラウドプロバイダーやAI企業に投入されることが予想されている。NVIDIAが主張するように、30倍のパフォーマンスを実現できるとすれば、その影響は計り知れない。

画像
Blackwellはコストとエネルギー消費も1/25に
(Photo/Shutterstock)

NVIDIA競合、8エクサFLOPSのAIスパコンを開発した企業とは

 NVIDIA以外のプレイヤーも研究開発を加速させている。その1社が、Cerebrasだ。

 CerebrasとG42は2024年3月13日、AI性能で8エクサFLOPSを達成できるスーパーコンピューター「Condor Galaxy 3」の構築に着工したことを発表した。エクサFLOPSとは、1秒間に1京(10の18乗)回の浮動小数点演算を行うことができる性能指標だ。

 Condor Galaxy 3は、5800万個ものAIに最適化されたコアを搭載したスパコンクラスター。その心臓部となるのが、Cerebrasが開発した業界最速のGPU「Wafer-Scale Engine 3(WSE-3)」だ。

 WSE-3を搭載したスパコン「CS-3」を64台組み合わせた大規模スパコンネットワークがCondor Galaxy 3となる。

 Cerebrasの創業者兼CEOであるアンドリュー・フェルドマン氏は、Condor Galaxy 3について「世界最大級のAIスーパーコンピューターの1つになる」と自信を見せる。

 Condor Galaxy 3は、テキサス州ダラスに設置され、Condor Galaxyネットワークの3番目のAIスーパーコンピューターとして稼働する予定だ。

 Condor Galaxyネットワークには、すでに世界最大級のAIスーパーコンピューターとして知られるCondor Galaxy 1とCondor Galaxy 2が存在する。Condor Galaxy 3の追加により、ネットワーク全体の総合力は16エクサFLOPSに達すると見込まれている。

 さらに、2024年末までにCondor Galaxyネットワークは55エクサFLOPS以上のAIコンピューティング性能を提供する計画となっている。

 WSE-3チップは、最先端の5ナノメートルプロセスで製造されており、4兆個ものトランジスタと90万個のAIに特化したコアを搭載している。トランジスタは、半導体の基本的な構成要素で、その数が多いほど高性能な半導体であることを示す。AIに特化したコアを大量に搭載することで、WSE-3は複雑なAIタスクを高速に処理できるようになっている。

 WSE-3のピーク性能は、125ペタFLOPSに達するという。ペタFLOPSとは、1秒間に1000兆(10の15乗)回の浮動小数点演算ができる性能を表す。

 CS-3の特長は、システムのあらゆるコンポーネントがAIワークロードに最適化されている点にある。これにより、他のシステムと比べて、より少ないスペースとエネルギーで、より多くの計算パフォーマンスを発揮できる。

 一般的にGPUの消費電力は世代ごとに倍増する傾向にあるが、CS-3は演算性能を2倍に引き上げながらも、消費電力を従来と同等に抑えることに成功したという。

 Condor Galaxyネットワークでは、これまでにもJais-30B、Med42、Crystal-Coder-7B、BTLM-3B-8Kといった生成AIモデルの学習に活用されてきた実績がある。各モデル名に付された数字は、そのモデルが持つパラメータの数を表しており、たとえばJais-30Bは300億のパラメータを持つモデルであることを示している。

 パラメータが多いほど、AIモデルは複雑なタスクを処理できるようになる。CerebrasがCondor Galaxy 3でパートナーシップを組む企業から、どのような画期的な成果が達成されるのか、大きな期待が寄せられている。 【次ページ】ChatGPTを13倍高速にできるGPUを開発した「特異な存在」
関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます