NVIDIA、Armベースのデータセンター向けCPU「Grace」投入を表明

NVIDIA、Armベースのデータセンター向けCPU「Grace」投入を表明
現在のx86ベースのCPUと比較して10倍の性能を発揮

笠原 一輝2021年4月13日 02:00
https://cloud.watch.impress.co.jp/docs/news/1318150.html

『半導体メーカーのNVIDIAは、4月12日午前8時(米国太平洋時間、日本時間4月12日午前0時)から同社の年次プライベートカンファレンス「GTC 2021」を開催しており、同社のAIに向けた各種ソリューションなどに関して多くの発表を行っている。

 そのGTC 2021の最初のセッションとして開催された同社 CEO ジェンスン・フアン氏の基調講演では、新しいデータセンター向けのCPUとして、開発コード名「Grace」(グレース)と呼ばれる製品を2023年に投入することを明らかにした。

NVIDIAのGrace(右)を搭載したマザーボード、左のもう1つのチップはGPU(提供:NVIDIA)

 NVIDIAによれば、GraceはArm社が開発する新しいデータセンター向けのCPUコアIPデザイン「次世代Neoverse(ネオバース)」が採用され、CPUコア1つあたりの処理能力がSPECrate2017_int_baseベンチマークで300を超える性能を発揮する。

 また、NVIDIAがサーバーなどでGPUとGPUを接続するインターコネクトとして導入しているNVLinkの次世代版が搭載されており、キャッシュコヒーレントに対応したNVLinkを利用した場合、CPUとGPU間の帯域幅は900GB/秒、キャッシュコヒーレントを使わない場合には600GB/秒の帯域を実現する。

 さらに、メモリコントローラはLPDDR5に対応。メモリ帯域は500GB/秒となり、現状の2倍の帯域幅を実現するという。

 なお、このGraceとNVIDIAのGPUを組み合わせることで、現在のx86 CPUとNVIDIA GPUの組み合わせでディープラーニング(深層学習)の大規模なモデル(1兆パラメータを持つモデル)を学習させた場合に1カ月かかる処理が、10分の1のわずか3日に短縮できるとのことだ。

x86 CPUベースの「DGX A100」と比べ性能が10倍となるArm CPU「Grace」

 NVIDIAが発表したGraceは、同社が「次世代Neoverse」と呼んでいるArmのデータセンター向けCPUデザインIPを採用している。Armは2018年の「Arm Techcon 2018」で、同社のデータセンター向けCPUのデザインIPとなる「Neoverse」を発表しており、既に同社の顧客などで採用されている。

 NVIDIAは現時点で、その次世代Neoverseがどういうものなのかは明らかにしていないが、Armが先日発表したばかりの新しい命令セット「Armv9」に対応した、新しいデザインであることは想定される。

 ただし今回、NVIDIAはその次世代Neoverseの性能は明らかにした。それによれば、CPUコア1つあたりで、SPECrate2017_int_baseにて300を超える性能を発揮するという。具体的にCPUコアがいくつになるのかなどは明らかにしていないが、当然、CPUコアは多くのコアが実装される形になるので、マルチコア時の性能はもっと大きな数字になることが想定される。

 なお、公開されたGraceのダイ写真を見る限りは、CPUダイはモノリシックダイで、AMDのEPYCなどで採用されているようなチップレットや、MCMと呼ばれる1つのパッケージの中に複数のダイが実装される形にはなっていないようだ。

NVIDIA Graceの概要(出典:NVIDIA)

 NVIDIAによれば、Graceの開発ターゲットは、CPUとメインメモリが、GPUやGPUメモリに比べて帯域幅が十分ではないことを克服することにあるという。というのも、現状ではCPUおよびCPUに接続されているメインメモリとGPUを接続するインターコネクトは、メモリやGPUと比較して低速なPCI Expressになるので、そこに引っ張られてしまい、GPUがメモリにアクセスするのに十分な帯域幅が確保されない現状がある。

現在のx86 CPUとGPUは、プロセッサに比べると遅いPCI Expressで接続されているため、CPUに接続されているメインメモリからGPUへの帯域幅は十分ではない(出典:NVIDIA)

 そこでGraceでは、NVIDIAのGPUがサポートしている高速なインターコネクトであるNVLinkに対応し、さらにNVLinkの帯域幅をCPUとGPUで600GB/秒、さらにキャッシュコヒーレント機能を有効にした場合には900GB/秒という帯域幅を実現する。

 また、CPUのメモリコントローラはLPDDR5に対応しており、メモリ帯域幅は500GB/秒を実現する。それにより、GPUとCPUが4つずつ搭載されているシステムの場合、メモリからGPUへの帯域幅は2000GB/秒となり、GPUがメインメモリにアクセスすることがボトルネックにならず、本来の性能を発揮できるようになる。

 NVIDIAによれば、1兆パラメータという非常に複雑で巨大なAIモデルを利用すると、学習にかかる時間は、x86 CPU(AMD 第2世代EPYC×2)とNVIDIA GPU(A100×8)の組み合わせとなる現行製品のDGX A100では約1カ月となるが、Grace(×8)+NVIDIA GPU(A100 ×8)の組み合わせの場合は、わずか3日間で終わるという。性能はざっと10倍に向上するという計算になる。

8xGrace+8xA100はDGX A100(2x x86 CPU+8xA100)に比べて10倍の性能を発揮(出典:NVIDIA)

 Graceの製造委託先は現時点では未公表だが、NVIDIAによれば5nmプロセスルールで製造され、2023年に市場に投入される計画になっているとのこと。現在、Swiss National Supercomputing Centre(CSCS)やLos Alamos National Laboratory(ロスアラモス国立研究所)が、Hewlett Packard Enterprise社が製造するGraceベースのスーパーコンピュータを導入する計画で、2023年より稼働する予定になっている。

CSCSやロスアラモス国立研究所などにHPCが製造したスーパーコンピュータが2023年に稼働する(出典:NVIDIA)

Arm CPU+NVIDIA GPUがAmazon EC2インスタンスで提供開始、新DPUのBlueField-3は2022年第1四半期に投入

 2020年、世の中をあっと言わせたArm買収を発表したNVIDIAは、GraceのようなArmベースのソリューションを加速している。すでにArm CPUに対応したCUDAをリリースしており、Arm CPUを利用したディープラーニングの学習ソリューションの充実などを進めている。

 今回のGTCではAWS(Amazon Web Services)との提携が発表され、AWSが提供しているGraviton2プロセッサ(64ビットのArm Neoverseコアを利用したカスタムプロセッサ)を利用したAmazon EC2インスタンスに、NVIDIA GPUを利用したものが提供されることが明らかにされた。

 また同時に、「Arm HPC Developer Kit」と呼ばれるArm CPUに対応した開発キットも提供され、ArmベースのCPUを利用したディープラーニングの学習がより利用しやすくする。Graviton2+NVIDIA GPUのAmazon EC2インスタンスは2021年後半から提供開始される予定だ。

Arm CPU+NVIDIA GPUがAmazon EC2インスタンスで提供開始(出典:NVIDIA)

 またNVIDIAは、2020年に発表した、DPU(Data Processing Units)と呼んでいるソフトウェア定義型のSmartNIC「BlueField-2 DPU」の後継として、「BlueField-3 DPU」を発表した。

 BlueField-3ではArm CPUが16コアに強化され(BlueField-2は8コア)、ネットワークの転送速度も200Gb/秒から400Gb/秒へと引き上げられる。従来のBlueField-2 DPU向けにソフトウェア開発キットDOCAで作成したソフトウェアは、そのまま実行可能だ。

BlueField-3(提供:NVIDIA)

BlueField-3の概要(出典:NVIDIA)

NVIDIA、データセンターのソフトウェア定義型ネットワークインフラを実現する「DPU」のロードマップを公開~DPU版CUDAといえる「DOCA」を提供へ
https://cloud.watch.impress.co.jp/docs/news/1280964.html

 BlueField-3は、2022年第1四半期からの提供開始が予定されている。なお、2020年に発表されたBlueField-2は本日より一般提供が開始されている。BlueField DPUはDell Technologies、Inspur、Lenovo、Supermicroなどのシステムベンダーから提供されるとNVIDIAでは説明している。』

エヌビディアがCPU参入 アームと組みAI計算10倍速く

https://www.nikkei.com/article/DGXZQOGN09EBS0Z00C21A4000000/

『【シリコンバレー=佐藤浩実】米半導体大手のエヌビディアは12日、CPU(中央演算処理装置)に参入すると発表した。英アームの基本設計を利用し、2023年に米欧のスーパーコンピューターに搭載する。人工知能(AI)計算を10倍速くできる見通しで、米インテルの主戦場に切り込む。AIの進化を左右する「頭脳」を巡り競争が激しくなる。

12日に開いたAIイベントでCPU「Grace(グレース)」を発表した。エヌビディアのGPU(画像処理半導体)と一緒に使うと、AIを学ばせるための計算速度が最大10倍になり、1カ月かけていた計算が3日で終わるという。他社製CPUとの組み合わせでは、計算量が膨大になると処理の「詰まり」が発生して速度を上げられなかった。

エヌビディアの「グレース」

米ヒューレット・パッカードエンタープライズ(HPE)がエヌビディアのCPUを組み込んでスパコンに仕上げ、米エネルギー省のロスアラモス国立研究所とスイスの国立スーパーコンピューターセンターに納める。ともに23年の稼働予定で、新材料や気象研究などに使う。

AIの「大きさ」、1年で100倍に

GPUが主力のエヌビディアがCPUまで手掛ける背景には、AIの進化がある。例えば自然な文章を書くと話題になった言語AI「GPT-3」には、計算結果を左右する評価軸(パラメーター)の数が1750億ある。19年に発表した1世代前の「GPT-2」の117倍で、パラメーターが増えてAIが大規模になるほど必要な処理も増える。

【関連記事】
AIが「人間並み」の文章 画像、音声に次ぐ革新迫る

エヌビディアの担当幹部、パレシュ・カーリャ氏は「数年以内に100兆のパラメーターを持つAIモデルが出てくる」と指摘する。今回のCPUは「最も複雑なAI計算のボトルネックを解消するために開発した」とし、米インテルや米アドバンスト・マイクロ・デバイス(AMD)などの汎用CPUとは「直接競合しない」というのが公式な見解だ。

インテル株、4%下落

ただ、AIの活用は文章の要約や自動のコード生成、チャットボットなど様々な分野に広がっている。エヌビディアがCPUの領域に踏み出したことで、今後各社が競争する場面は増える。発表に伴い、12日の米株式市場でインテルの株価は前日終値比で4%、AMDは5%下がった。

CPUへの参入は20年9月に買収を表明したアームとの協業の深化も示す。グレースではアームが3月に刷新した新しい設計技術を採用した。エヌビディアのジェンスン・ファン最高経営責任者(CEO)は12日のイベントで「クラウドやスパコンでのアームの採用は始まったばかりだが、大きな成長のチャンスがある」と話した。両社は22年の買収成立を目指している。

一方でハイテク産業をめぐる米中対立は激しさを増しており、ソフトバンクグループからの買収が計画通り進むかは不透明だ。3月には米半導体装置大手アプライドマテリアルズによる旧日立製作所系KOKUSAI ELECTRICの買収が中国当局の承認を得られず破談になった。業界でも「アームの中立性が失われる」と反対の声が出ている。

【関連記事】
インテル超えのエヌビディア、革ジャンCEOが狙う盟主
インテル、「データの黒子」死守へ 自社ブランド構わず

半導体業界では需要見通しの誤りや天災、火事などにより、車向けを中心に需要に供給が追いつかない状態が続く。自動車各社が減産を迫られ、12日には米ホワイトハウスが供給網(サプライチェーン)の見直しについて議論する会議を開いた。こうした半導体の「量」の問題に加え、AI計算の頭脳をめぐる「質」の競争も激化している。

春割ですべての記事が読み放題
今なら2カ月無料!

春割で申し込む
https://www.nikkei.com/promotion/?ak=https%3A%2F%2Fwww.nikkei.com%2Farticle%2FDGXZQOGM11C1B011032021000000&n_cid=DSPRM1AR08_promo

無料会員に登録する
https://www.nikkei.com/r123/?ak=https%3A%2F%2Fwww.nikkei.com%2Farticle%2FDGXZQOGM010QT001022021000000&n_cid=DSPRM1AR07#free

ログインする
https://www.nikkei.com/login

GeForce RTX 3060は“ゲーマーに届く”。マイニング性能を半分に制限

※ ということで、GPUは、「ゲーマー」と「マイニングやる人」とで、取り合いになった…。

※ 「暗号資産」の「マイニング」の検証・演算やるにも、「ベクター型」の演算器である「GPU」が欲しいからな…。

※ しかも、「マイニング業者」みたいなことやってる人は、一人で何枚も「GPU」使うから、「ゲーマー」まで行き渡らない事態が生じた…。

※ それで、そういう「マイニング」に使っていることを「検知」すると、「ドライバ」側で「演算能力」を半分に制限する…、という仕組みを導入することにした…、という話しだ…。

https://pc.watch.impress.co.jp/docs/news/1307428.html

『NVIDIAは18日(現地時間)、25日に発売予定のGeForce RTX 3060において、ドライバソフトウェアでEthereum暗号通貨マイニングアルゴリズムの特定の属性を検出し、ハッシュレートおよびマイニング効率を約50%に制限するよう設計したと発表した。』

『一方でマイニング用には別途、「NVIDIA CMP(Cryptocurrency Mining Processor)」という専用の製品ラインを用意。ディスプレイ出力を省くことでエアフローを改善できるほか、ピーク電圧と周波数を抑えてマイニングの電力効率を向上させるとしている。』

『世界的に半導体不足が続いているが、とくにGPUに関しては、在宅時間の増加に伴うゲーム需要増と、仮想通貨の高騰に伴うマイニング需要増で事態は深刻化。店頭に最新ビデオカードが並んでいても、ゲーマーとマイナーがそれを取り合うことになっている。

 ゲーマーは1人1枚で十分なのに対し、マイナーは1人で複数枚購入するため、不公平だという不満の声がゲーマー側から多く上がっている。より多くのゲーマーにGeForceを届けるために、NVIDIAはこのような策を打ち出したわけだ。』