NVIDIA、Armベースのデータセンター向けCPU「Grace」投入を表明

NVIDIA、Armベースのデータセンター向けCPU「Grace」投入を表明
現在のx86ベースのCPUと比較して10倍の性能を発揮

笠原 一輝2021年4月13日 02:00
https://cloud.watch.impress.co.jp/docs/news/1318150.html

『半導体メーカーのNVIDIAは、4月12日午前8時(米国太平洋時間、日本時間4月12日午前0時)から同社の年次プライベートカンファレンス「GTC 2021」を開催しており、同社のAIに向けた各種ソリューションなどに関して多くの発表を行っている。

 そのGTC 2021の最初のセッションとして開催された同社 CEO ジェンスン・フアン氏の基調講演では、新しいデータセンター向けのCPUとして、開発コード名「Grace」(グレース)と呼ばれる製品を2023年に投入することを明らかにした。

NVIDIAのGrace(右)を搭載したマザーボード、左のもう1つのチップはGPU(提供:NVIDIA)

 NVIDIAによれば、GraceはArm社が開発する新しいデータセンター向けのCPUコアIPデザイン「次世代Neoverse(ネオバース)」が採用され、CPUコア1つあたりの処理能力がSPECrate2017_int_baseベンチマークで300を超える性能を発揮する。

 また、NVIDIAがサーバーなどでGPUとGPUを接続するインターコネクトとして導入しているNVLinkの次世代版が搭載されており、キャッシュコヒーレントに対応したNVLinkを利用した場合、CPUとGPU間の帯域幅は900GB/秒、キャッシュコヒーレントを使わない場合には600GB/秒の帯域を実現する。

 さらに、メモリコントローラはLPDDR5に対応。メモリ帯域は500GB/秒となり、現状の2倍の帯域幅を実現するという。

 なお、このGraceとNVIDIAのGPUを組み合わせることで、現在のx86 CPUとNVIDIA GPUの組み合わせでディープラーニング(深層学習)の大規模なモデル(1兆パラメータを持つモデル)を学習させた場合に1カ月かかる処理が、10分の1のわずか3日に短縮できるとのことだ。

x86 CPUベースの「DGX A100」と比べ性能が10倍となるArm CPU「Grace」

 NVIDIAが発表したGraceは、同社が「次世代Neoverse」と呼んでいるArmのデータセンター向けCPUデザインIPを採用している。Armは2018年の「Arm Techcon 2018」で、同社のデータセンター向けCPUのデザインIPとなる「Neoverse」を発表しており、既に同社の顧客などで採用されている。

 NVIDIAは現時点で、その次世代Neoverseがどういうものなのかは明らかにしていないが、Armが先日発表したばかりの新しい命令セット「Armv9」に対応した、新しいデザインであることは想定される。

 ただし今回、NVIDIAはその次世代Neoverseの性能は明らかにした。それによれば、CPUコア1つあたりで、SPECrate2017_int_baseにて300を超える性能を発揮するという。具体的にCPUコアがいくつになるのかなどは明らかにしていないが、当然、CPUコアは多くのコアが実装される形になるので、マルチコア時の性能はもっと大きな数字になることが想定される。

 なお、公開されたGraceのダイ写真を見る限りは、CPUダイはモノリシックダイで、AMDのEPYCなどで採用されているようなチップレットや、MCMと呼ばれる1つのパッケージの中に複数のダイが実装される形にはなっていないようだ。

NVIDIA Graceの概要(出典:NVIDIA)

 NVIDIAによれば、Graceの開発ターゲットは、CPUとメインメモリが、GPUやGPUメモリに比べて帯域幅が十分ではないことを克服することにあるという。というのも、現状ではCPUおよびCPUに接続されているメインメモリとGPUを接続するインターコネクトは、メモリやGPUと比較して低速なPCI Expressになるので、そこに引っ張られてしまい、GPUがメモリにアクセスするのに十分な帯域幅が確保されない現状がある。

現在のx86 CPUとGPUは、プロセッサに比べると遅いPCI Expressで接続されているため、CPUに接続されているメインメモリからGPUへの帯域幅は十分ではない(出典:NVIDIA)

 そこでGraceでは、NVIDIAのGPUがサポートしている高速なインターコネクトであるNVLinkに対応し、さらにNVLinkの帯域幅をCPUとGPUで600GB/秒、さらにキャッシュコヒーレント機能を有効にした場合には900GB/秒という帯域幅を実現する。

 また、CPUのメモリコントローラはLPDDR5に対応しており、メモリ帯域幅は500GB/秒を実現する。それにより、GPUとCPUが4つずつ搭載されているシステムの場合、メモリからGPUへの帯域幅は2000GB/秒となり、GPUがメインメモリにアクセスすることがボトルネックにならず、本来の性能を発揮できるようになる。

 NVIDIAによれば、1兆パラメータという非常に複雑で巨大なAIモデルを利用すると、学習にかかる時間は、x86 CPU(AMD 第2世代EPYC×2)とNVIDIA GPU(A100×8)の組み合わせとなる現行製品のDGX A100では約1カ月となるが、Grace(×8)+NVIDIA GPU(A100 ×8)の組み合わせの場合は、わずか3日間で終わるという。性能はざっと10倍に向上するという計算になる。

8xGrace+8xA100はDGX A100(2x x86 CPU+8xA100)に比べて10倍の性能を発揮(出典:NVIDIA)

 Graceの製造委託先は現時点では未公表だが、NVIDIAによれば5nmプロセスルールで製造され、2023年に市場に投入される計画になっているとのこと。現在、Swiss National Supercomputing Centre(CSCS)やLos Alamos National Laboratory(ロスアラモス国立研究所)が、Hewlett Packard Enterprise社が製造するGraceベースのスーパーコンピュータを導入する計画で、2023年より稼働する予定になっている。

CSCSやロスアラモス国立研究所などにHPCが製造したスーパーコンピュータが2023年に稼働する(出典:NVIDIA)

Arm CPU+NVIDIA GPUがAmazon EC2インスタンスで提供開始、新DPUのBlueField-3は2022年第1四半期に投入

 2020年、世の中をあっと言わせたArm買収を発表したNVIDIAは、GraceのようなArmベースのソリューションを加速している。すでにArm CPUに対応したCUDAをリリースしており、Arm CPUを利用したディープラーニングの学習ソリューションの充実などを進めている。

 今回のGTCではAWS(Amazon Web Services)との提携が発表され、AWSが提供しているGraviton2プロセッサ(64ビットのArm Neoverseコアを利用したカスタムプロセッサ)を利用したAmazon EC2インスタンスに、NVIDIA GPUを利用したものが提供されることが明らかにされた。

 また同時に、「Arm HPC Developer Kit」と呼ばれるArm CPUに対応した開発キットも提供され、ArmベースのCPUを利用したディープラーニングの学習がより利用しやすくする。Graviton2+NVIDIA GPUのAmazon EC2インスタンスは2021年後半から提供開始される予定だ。

Arm CPU+NVIDIA GPUがAmazon EC2インスタンスで提供開始(出典:NVIDIA)

 またNVIDIAは、2020年に発表した、DPU(Data Processing Units)と呼んでいるソフトウェア定義型のSmartNIC「BlueField-2 DPU」の後継として、「BlueField-3 DPU」を発表した。

 BlueField-3ではArm CPUが16コアに強化され(BlueField-2は8コア)、ネットワークの転送速度も200Gb/秒から400Gb/秒へと引き上げられる。従来のBlueField-2 DPU向けにソフトウェア開発キットDOCAで作成したソフトウェアは、そのまま実行可能だ。

BlueField-3(提供:NVIDIA)

BlueField-3の概要(出典:NVIDIA)

NVIDIA、データセンターのソフトウェア定義型ネットワークインフラを実現する「DPU」のロードマップを公開~DPU版CUDAといえる「DOCA」を提供へ
https://cloud.watch.impress.co.jp/docs/news/1280964.html

 BlueField-3は、2022年第1四半期からの提供開始が予定されている。なお、2020年に発表されたBlueField-2は本日より一般提供が開始されている。BlueField DPUはDell Technologies、Inspur、Lenovo、Supermicroなどのシステムベンダーから提供されるとNVIDIAでは説明している。』

エヌビディアがCPU参入 アームと組みAI計算10倍速く

https://www.nikkei.com/article/DGXZQOGN09EBS0Z00C21A4000000/

『【シリコンバレー=佐藤浩実】米半導体大手のエヌビディアは12日、CPU(中央演算処理装置)に参入すると発表した。英アームの基本設計を利用し、2023年に米欧のスーパーコンピューターに搭載する。人工知能(AI)計算を10倍速くできる見通しで、米インテルの主戦場に切り込む。AIの進化を左右する「頭脳」を巡り競争が激しくなる。

12日に開いたAIイベントでCPU「Grace(グレース)」を発表した。エヌビディアのGPU(画像処理半導体)と一緒に使うと、AIを学ばせるための計算速度が最大10倍になり、1カ月かけていた計算が3日で終わるという。他社製CPUとの組み合わせでは、計算量が膨大になると処理の「詰まり」が発生して速度を上げられなかった。

エヌビディアの「グレース」

米ヒューレット・パッカードエンタープライズ(HPE)がエヌビディアのCPUを組み込んでスパコンに仕上げ、米エネルギー省のロスアラモス国立研究所とスイスの国立スーパーコンピューターセンターに納める。ともに23年の稼働予定で、新材料や気象研究などに使う。

AIの「大きさ」、1年で100倍に

GPUが主力のエヌビディアがCPUまで手掛ける背景には、AIの進化がある。例えば自然な文章を書くと話題になった言語AI「GPT-3」には、計算結果を左右する評価軸(パラメーター)の数が1750億ある。19年に発表した1世代前の「GPT-2」の117倍で、パラメーターが増えてAIが大規模になるほど必要な処理も増える。

【関連記事】
AIが「人間並み」の文章 画像、音声に次ぐ革新迫る

エヌビディアの担当幹部、パレシュ・カーリャ氏は「数年以内に100兆のパラメーターを持つAIモデルが出てくる」と指摘する。今回のCPUは「最も複雑なAI計算のボトルネックを解消するために開発した」とし、米インテルや米アドバンスト・マイクロ・デバイス(AMD)などの汎用CPUとは「直接競合しない」というのが公式な見解だ。

インテル株、4%下落

ただ、AIの活用は文章の要約や自動のコード生成、チャットボットなど様々な分野に広がっている。エヌビディアがCPUの領域に踏み出したことで、今後各社が競争する場面は増える。発表に伴い、12日の米株式市場でインテルの株価は前日終値比で4%、AMDは5%下がった。

CPUへの参入は20年9月に買収を表明したアームとの協業の深化も示す。グレースではアームが3月に刷新した新しい設計技術を採用した。エヌビディアのジェンスン・ファン最高経営責任者(CEO)は12日のイベントで「クラウドやスパコンでのアームの採用は始まったばかりだが、大きな成長のチャンスがある」と話した。両社は22年の買収成立を目指している。

一方でハイテク産業をめぐる米中対立は激しさを増しており、ソフトバンクグループからの買収が計画通り進むかは不透明だ。3月には米半導体装置大手アプライドマテリアルズによる旧日立製作所系KOKUSAI ELECTRICの買収が中国当局の承認を得られず破談になった。業界でも「アームの中立性が失われる」と反対の声が出ている。

【関連記事】
インテル超えのエヌビディア、革ジャンCEOが狙う盟主
インテル、「データの黒子」死守へ 自社ブランド構わず

半導体業界では需要見通しの誤りや天災、火事などにより、車向けを中心に需要に供給が追いつかない状態が続く。自動車各社が減産を迫られ、12日には米ホワイトハウスが供給網(サプライチェーン)の見直しについて議論する会議を開いた。こうした半導体の「量」の問題に加え、AI計算の頭脳をめぐる「質」の競争も激化している。

春割ですべての記事が読み放題
今なら2カ月無料!

春割で申し込む
https://www.nikkei.com/promotion/?ak=https%3A%2F%2Fwww.nikkei.com%2Farticle%2FDGXZQOGM11C1B011032021000000&n_cid=DSPRM1AR08_promo

無料会員に登録する
https://www.nikkei.com/r123/?ak=https%3A%2F%2Fwww.nikkei.com%2Farticle%2FDGXZQOGM010QT001022021000000&n_cid=DSPRM1AR07#free

ログインする
https://www.nikkei.com/login

漏れのある抽象化の法則

※ クロステックの「抽象化の破れ」の話し(「抽象化のやぶれ」というノーコード/ローコード開発の落とし穴 https://xtech.nikkei.com/atcl/nxt/column/18/00138/010800705/ )を検索してたら、当たった…。

※ 「抽象化の破れ」も、「漏れのある抽象化」も、たぶん同じことを言っているんだろうと、思う…。

※ 非常に参考になったんで、貼っておく…。

『1. 漏れのある抽象化の 法則について

  1. 自己紹介● 名前 – 橘田 隼一● TwitterID – hayabusa333● 興味があること – カーネルとか言語開発とか● 現在のお仕事 – テストプログラマー● 信仰 – Joel教
  2. 漏れのある抽象化の法則
  3. 漏れのある抽象化の法則 ● Joel Spolsky提唱 ● Fog Creek Software 創 業者 ● 人気ブログ Joel on Software
  4. 抽象化一度に注目すべき概念を減らすことおよびその仕組み
  5. TCP/IPIP● 信頼性のない通信方式TCP● 信頼性のある通信方式
  6. TCPはIPの上に実装されている
  7. 信頼性のない通信方式で信頼性のある通信を行う
  8. TCPはIPを使って通信を行っているが詳しいことを 知らなくても通信できる
  9. TCPはIPを使って通信を行っているが詳しいことを 知らなくても通信できる
  10. TCPはIPを抽象化している
  11. しかしLANケーブルが切れていれば繋がらない回線が重ければ、TCPは信頼性を確保できない
  12. 抽象化には漏れがある
  13. これが漏れのある抽象化の法則
  14. 漏れのある抽象化の法則自明でない抽象化はすべて、程度の差こそあれ、漏れがある
  15. 抽象化は失敗する。あるときは小さく、あるときは 大きく、漏れがあるのだ。 物事は悪くなるものだ。この漏れは、抽象化が行われているあらゆる場所で起こる。
  16. Joel の出した例
  17. 大きな二次元配列の要素を順番にたどるという単純な事でも、水平方向か垂直方向かで、「芝目」に依存してパフォーマンス特性が劇的に異なるこ とがある
  18. C言語で記載for(i = 0; i < 30000; i++){ for(j = 0; j < 30000; j++){ array[i][j] = 0; }}for(i = 0; i < 30000; i++){ for(j = 0; j < 30000; j++){ array[j][i] = 1; }}
  19. デモ
  20. この性能差はプログラム言語に よって出たものではなくOSやCPUによって現れたものである
  21. C言語は簡単である。ただしOSの特殊な振る舞い に目をつむれば
  22. OSは簡単である。 OS ただしCPUの特殊な振る舞いに目をつむれば
  23. あなたが日常使うことの90%は 1週間で学習できるが、残りの10%を知るためには2、3年かか るかもしれない
  24. 先ほどの例の理由を知るためには、C言語だけではなく OSの特性、メモリ管理、仮想化、CPUの挙動についても知らない といけない
  25. 漏れのある抽象化の法則にうまく対処する唯一の方法は、その抽象化がどのように機能し、それが何を抽象化している のかを学ぶことだ。
  26. そういうわけで、抽象化は私たちが作業する時間を節約してくれるが、私たちが学ぶ時間までは節約してくれないのだ。
  27. ネットワーク・サーバはプログラム言語で実装されている
  28. プログラムはOSやCPUの上で動いている
  29. 抽象化されている先を 知らなければ 問題は解決できない
  30. 問題を解決できるエンジニアになるためには全てを勉強する必要がある
  31. 我々が目指すエンジニア像は 漏れのある抽象化の法則の漏れを解決できるエンジニアで あるべきである
  32. ぜひ、漏れのある抽象化に だまされないで 漏れを解決できる人に なってほしい
  33. 参考書籍
  34. ご清聴ありがとう ございました』  
  35. ※ こっちも、非常に参考になったんで、貼っておく…。  子どもは何にも知らないの
     https://blog.practical-scheme.net/shiro/20070912-machine-language

『shi3zの日記 – マシン語を知らない子ども達
マシン語読みの言語知らず
アルゴリズムを知らない子ども達
コンパイラの中身を知らない子ども達
オシロスコープを知らない子供たち
元のshi3zさんのエントリが断定調で、一般論と具体論が混ざってることもあって 異論反論パロディが続出したようで。つい黙ってられなくて あちこちにコメントしてしまったけど まとめとく。

解釈が割れた点は:

元の論の対象となる「プログラムが書ける人」は一般の職業プログラマや趣味プログラマまで 含むのか、それとも抽象化の破れにいつも直面してそれを何とかしてしまえるような 一部のタフな人材を指してるのか。
元の論の「マシン語を理解する」は80386アーキテクチャ特有のバッドノウハウまで 理解してばりばりアセンブラを書き下せることを指すのか、それともストアドプログラム アーキテクチャ、MMU、特権命令、割り込み、コンテキストスイッチなどの現代の 代表的なマシンアーキテクチャを理解するということを差し、80386を持ち出したのは 単なる代表例にすぎないのか。
あたりかな。私は両方とも後者と取ったけど、別に解釈すれば異論が出るのがわかる。

ただ、どういう解釈をしても次のような意見が出てくることには首をひねる。

「抽象化はレイヤの積み重ねで、論理回路の下にも半導体があり、電磁気学や 量子力学を知る必要があり、と続いてゆくから程度問題にすぎない。結局「自分は 論理回路から知っているよ」という優越感ゲームにすぎないのでは」

そう思う人にはDaniel HillisのThe Pattern on the Stone (翻訳: 思考する機械 コンピュータ) を勧めとく。翻訳は読んだことが無いが、原書の内容はとても平易なので、 内容だけなら中学生でも理解できるだろう。

第1章は論理回路。第2章で論理演算と状態機械。第3章でプログラミング言語。 第4章でチューリングマシン。第5章でアルゴリズム。以降、暗号や並列計算、 機械学習などを扱う。これを読んだからってプログラムがかけるようにはならないし 紹介された個々の概念を理解したことにはならないけれど、少なくとも現代のコンピュータが どういう概念の積み重ねで出来ているかという構造がわかるようになっている。

で、第1章の論理回路なんだけど、Danny Hillisはここで「スイッチとランプ」 「棒とばね」「パイプと弁」などで論理回路を作って見せる。つまりデバイスが 何であろうと、1と0が表現できてそれを伝達する仕組みさえあれば、残りの全ては その上に構築できるということだ。もちろん物理的に実現可能な規模で現代の CPUを作ろうとしたら半導体以外では非常に困難だろうけれど、今後全く新種の デバイスが出現して物理層がごっそり置き換わったとしても、上の層に 変化はない (ちなみに量子コンピューティングになったらどうなるの、という話は ちゃんと同書の中にも出てくる)。

私は高周波回路も量子力学も苦手だったし、数百MHzのバスクロックに乗るパルスの 波形や数GHzのチップクロックの中を走る電子の雲がどうなってるかなんて 考えたくも無いんだけれど、それらがデジタル回路の抽象化の壁を越えてくる確率と 「高級言語」で書かれたプログラムのSEGVに出会う確率にはあまりに大きな差がある。 抽象化力を指標とすれば、論理回路は非常に強力で成功した抽象化であり、 一方現代の高級言語の多くはまだその域に達していないとも言える。

このような抽象化の壁の厚さの違いに自覚的であることにより、次のようなメリットがある。

学ぶものごとに優先順位をつけられる。たくさんの層があっても、 壁が分厚くなっているいくつかの層を重点的に学べば安定した足場が得られる。
良い抽象化と悪い抽象化の区別がつけられる。自分で抽象化を設計する時に、 自覚的に壁の厚さを選択できる。
抽象化力の違いを無視して相対化してしまう危険は上のメリットの裏返しだ。

あまりにたくさんの層があって全部は学べないから、とりあえず目の前の層を学んどいて、 漏れが出てきたらすぐ下の層、というふうに広げてゆくしかない、と思う。 でも時間に限りがあるから安定した足場までなかなか到達せず、いつも不安を抱えている
自分の設計した抽象化が良いのか悪いのか、判断基準が良くわからない。 また、与えられた問題に必要とされる抽象化の程度を判断できない。
なんだかんだで、ネタにマジレスな野暮だけど、せっかく書いたから貼っておく。

Tags: Programming, Assembly, Hardware』

インテル入ってない:アームが半導体巨人を倒すまで

インテル入ってない:アームが半導体巨人を倒すまで
アームはモバイル端末のほか、PCやクラウドでも使用が増えている技術の設計を手掛ける
https://jp.wsj.com/articles/SB10671388092954773957304587158144275503230

『By Christopher Mims
2020 年 12 月 15 日 09:47 JST 更新

――筆者のクリストファー・ミムズはWSJハイテク担当コラムニスト

***

 米半導体大手インテルが設計し製造したマイクロチップはかつて、ほぼ全てのパソコンやクラウドコンピューティングの中核をなすほど支配的だった。だがここ何年も、競合他社の後塵(こうじん)を拝している。そうしたライバルには無数のスタートアップ企業のみならず、時価総額が数兆ドル規模の企業も含まれており、インテルの牙城を崩すまであと一歩のところまできている。

 アップルは最近、自社の新型パソコンシリーズ「Mac(マック)」へのインテル製チップ搭載を終了すると発表した。自社の設計品に切り替えるという。インテル長年のパートナーであるマイクロソフトも、自社のタブレット端末「サーフェス・プロX」に独自のチップを搭載。グーグルは自社のスマートフォン「ピクセル」にクアルコム製、パソコン「クロームブック」にはインテル製のチップを使用しているが、内製化に取り組んでいるようだ。一方、韓国サムスン電子は20年にわたり独自チップを設計している。ただしインテル、クアルコム両社との提携は続けている。

 こうした動きの背景には、効率性がかつてないほど求められていることがある。アップルは今年、「ワット当たりの性能」について大いに喧伝した。この基準はバッテリーで動く機器にとって明らかに重要だが、世界の消費電力の1%を占めるクラウドコンピューティングにとってもしかり。このようなニーズを満たすため、電子機器メーカーは自社製品によりカスタマイズしやすいマイクロチップを選択している。車両を駆動するのに開発されたエンジンと同様に。

 カスタムメードのチップ製造で先頭を走るのは製造企業ではない。ほぼ全てのモバイル端末のほか、パソコンやクラウドサービスでも使用が増えている技術の設計を手掛けるのは英半導体設計大手アーム・ホールディングスだ。同社がマイクロチップの設計図をライセンス供与するハイテク大手やハードウエアのスタートアップは計500社余り。すでにスマホやタブレット端末、ノートパソコン向けプロセッサーの市場シェアは9割に上る。

 インテルは米アドバンスト・マイクロ・デバイセズ(AMD)と台湾の威盛電子(VIAテクノロジーズ)との長年の関係を除けば、他社にマイクロチップの設計図をライセンス供与しない。インテルはアマゾン・ドット・コムのような大容量のデータ処理を必要とする顧客のために、自社の高性能プロセッサー「Xeon(ジーオン)」をカスタマイズする。

 アームが供与するライセンスは特定のニーズに合わせ、同社のさまざまな「コア」を組み合わせることが可能だ。同社のレネ・ハース知財製品担当プレジデントによれば、気温観測など低電力の環境センサーのチップを作りたい顧客はコアが1つしか必要ないかもしれないが、超高速のクラウドサーバー向けプロセッサーには最大96コア必要になる可能性があるという。

アップルの新「MacBook」に搭載された独自チップ
PHOTO: DANIEL ACKER/BLOOMBERG NEWS

 社内に経験豊富で大きなチップ設計チームがあるアップルやサムスン、クアルコム、エヌビディアといった一部企業はあまり一般的でないタイプのライセンスを求め、独自に設計されたチップを製造する。それでもアームのエコシステム内にある。同じ「命令セット」を使用しているからだ。

 現時点でインテルの命令セット「x86」とアームの命令セットの特徴の違いは不鮮明だ、と指摘するのはアンディ・ファン氏だ。同氏はベテランエンジニアでチップ設計企業に助言を行う。アームの命令セットはインテルのとほぼ同じくらい大きく複雑化しているが、インテルは効率性を向上させた高性能チップの設計に注力しているという。

 両社にとって現在、処理速度と同じくらいカスタマイズが戦いの場となっているが、アップルが新「MacBook(マックブック)」に搭載した独自のチップ「M1」の評価基準は、アームベースのチップが非常に処理速度が速くなり得ることを示している。現在世界最速のスーパーコンピューターには富士通の開発したチップが搭載されているが、アームの技術に基づいている。

 電子機器メーカーはカスタマイズしたチップの製造をベストなファウンドリー(受託生産)企業から選べるし、最先端技術の大半はもはやインテルではなく、(ほとんどがアームの技術が基になる)チップを実際に製造している台湾積体電路製造(TSMC)やサムスンといったライバル企業に属している。

 ほかにも、インテルの領域に踏み込んでいる企業がある。画像処理半導体(GPU)と人工知能(AI)の市場を支配し、時価総額で現在最大の米半導体メーカーであるエヌビディアは、アーム・ホールディングスをソフトバンクグループから400億ドル(現金と株式)で買収することで合意している。規制当局の審査を通過すれば、業界史上最大の買収案件となる。

自社のタブレットPC「Surface Pro X」を紹介するマイクロソフトのパノス・パネイ最高製品責任者(19年10月)
PHOTO: MARK KAUZLARICH/BLOOMBERG NEWS

 アップル創業者のスティーブ・ジョブズ氏は2006年、同社がインテル製チップに切り替えると発表した。当時採用していたチップの製造元であるIBMが追いついてこられなかったためだ。インテルは10年以上にわたり、パソコン・サーバー向けチップの消費電力と効率性で業界トップを走り続けた。

 だが同時期にインテルは致命的なミスを犯した。当時のポール・オッテリーニ最高経営責任者(CEO)は、「iPhone(アイフォーン)」に搭載するチップを製造してほしいというアップルの依頼を断ったのだ。アップルはアームの設計に基づいて独自チップの開発に乗り出し、2010年に発表されたiPhone4に初めて搭載された。産声を上げたばかりのモバイル業界の他企業もすでにアームの技術を採用しており、アーム支配の流れに向かっていった。

 スマホ革命が起きなければ、インテルは今でも中央処理装置の市場を握っていた、とハイテク分野の調査会社ムーア・インサイツ・アンド・ストラテジーのパトリック・ムーアヘッド社長は語る。

握手するアップルのスティーブ・ジョブズCEO(左)とインテルのポール・オッテリーニCEO(06年1月)
PHOTO: PAUL SAKUMA/ASSOCIATED PRESS

 このような戦い――インテルの垂直統合的アプローチとアームのより柔軟な戦略――はクラウド、厳密に言えば、データセンターでも繰り広げられている。クラウドサービス最大手アマゾンの「アマゾン・ウェブ・サービス(AWS)」は独自に開発したアームチップを使っている。インテル製と比べ、クラウドアプリの性能が40%上回り、コストも20%低いとしている。

 にもかかわらず、インテルのクラウドサーバー向けチップ需要は衰えていない。2020年9月までの1年間の売上高は前年同期比11%増の781億ドルだった。新型コロナウイルスの世界的流行によりパソコンとサーバーの需要が爆発的に増えたおかげで、同期間の増収率は何年かぶりの大きさだ。同社はこの勢いに乗じて新規ビジネスへの参入をもくろんでいる。そうした分野にはGPUやAIトレーニング、5G(次世代通信規格)ネットワーキング、自動運転が含まれる。ロバート・スワンCEOは、同社がもはやパソコン・サーバー市場の支配に重点を置くべきではなく、「あらゆる半導体製品」のシェア3割を目指すべきと繰り返し述べている。

マイクロ・マジックが発表したRISC-Vコア(2日)
PHOTO: MICRO MAGIC|, INC.

 一方のアームは、今後も事業拡張を続けたいなら現状にあぐらをかいてはいられない。カスタマイズと費用効率の高い製造オプションを約束してインテルから顧客を奪ったように、今度は新たなスタートアップに脅かされる立場になりかねない。そうしたスタートアップの一つが、カリフォルニア大学バークレー校が開発した「RISC-V(リスクファイブ)」だ。設計が簡略化されていることで、「ワット当たりの性能」という今では不可欠な基準において有望な結果が最近示されている。だが最大のウリはオープンソースであることだろう。アームとは異なり、RISC-Vの命令セットを無料で利用できるのだ。

 中国ハイテク大手アリババグループはRISC-Vベースのチップを発表した。米トランプ政権下で欧米の技術や知財を取得するのが困難な他の中国企業も関心を寄せている。

 一方、インテルが成長し続けることができるかどうかは、製造で再び追いつけるかにかかっているかもしれない。さまざまな試みがうまくいかなくても、インテルが巨大なエコシステムを持つことができれば、それによってもたらされる勢いはこの先何年も同社が重要な企業であり続ける一助となることは間違いないだろう。また、あらゆる種類のプロセッサーの需要が爆発すれば、最も強力なライバルさえ、インテルを締め出すのに十分な供給を行うことは難しいかもしれない。』

半導体設計メーカーのArmがライセンス料の4倍値上げを要求か

https://gigazine.net/news/20200716-arm-price/

独占:アームは一部の顧客のためにチップ技術の価格を引き上げると情報筋は言う
https://www.reuters.com/article/us-softbank-group-arm-exclusive/exclusive-arm-raises-prices-on-chip-technology-for-some-customers-sources-say-idUSKCN24G1RM

『(グーグル翻訳文)
(ロイター通信)-ソフトバンクグループが所有する(9984.T)半導体技術サプライヤーであるArm Ltdは、最近の交渉で一部の顧客のライセンス料を引き上げようとしていると、この件に詳しい4人がロイターに語った。
Armの営業担当者は最近の会談で、一部の顧客のライセンス全体の費用を最大4倍に引き上げる価格引き上げを強く求めていると、この問題に詳しい2人は述べています。

ライセンスコストはさまざまですが、複雑なコンピューティングコアなどの重要な設計には数百万ドルかかる場合があります。引き上げにより一部のライセンシーは非アーム代替案を検討するよう求められ、2人がロイターに非公開交渉について話し合うよう匿名性を要求したと語った。

Armは価格交渉についてコメントしないと述べた。

同社は、Marvell Technology Group(MRVL.O)などの顧客がデータセンターなどの新しい市場に参入できるように、新しいテクノロジーに多額の投資を行ってきました。昨年、アームは「フレキシブルアクセス」プログラムを開始し、顧客は先行技術コストを抑えながら幅広いテクノロジーにアクセスできるようになりました。

アームは、チップ内の知的財産を供給する最もアップル社(からのものも含め、世界のスマートフォンの電源AAPL.O)と、サムスン電子のCo株式会社(005930.KS)。それは、他の市場の中で、自動運転車とネットワーク技術のためのチップに拡大しています。

SoftBankは2016年にイングランドに本拠を置くArmのケンブリッジを320億ドルで購入し、これまでで最大の購入となりました。

ウォールストリートジャーナルは今週、ソフトバンクがアームの完全または部分的な売却を含む代替案を検討するためにゴールドマンサックスグループインクを雇ったことを今週報告しました。SoftBankの最高執行責任者Marcelo Claureは、火曜日にここフィナンシャルタイムズに、SoftBankがチップ会社から「ほとんどの価値」を認識したときにArmは上場すると発表しましたが、 」

チップ企業の25%が銀行の968億ドルのビジョンファンドによって保有されているため、アーム上場の結果はSoftBankにとって非常に重要になる可能性があります。ソフトバンクの最新の財務によれば、ファンドの投資額は3月31日現在で173億ドルの損失でしたが、2019年末の7,273億円(68億ドル)の損失額と比較しています。ビジョンファンドの減少は、 Uber Technologies Inc(UBER.N)およびWeWorkとして。

チップ設計者がArmのテクノロジーにアクセスするために支払うライセンス料は、収益の成長を牽引しています。このような収益は、直近の会計年度で6.4%増加して5億8,200万ドルになりましたが、Armテクノロジーで作られたチップのロイヤルティからの収益は1.5%減少して10億8千万ドルになりました。

SoftBankは部分的にArmを買収し、信号機から冷蔵庫までの日常的なデバイスがインターネットに接続することが期待されるモノのインターネットまたはIoTで期待されるブームを利用しました。

しかし、IoTでは、チップ設計者に低価格を請求するライバルや、チップ設計者自身が無料で使用できるRISC-Vと呼ばれる「オープンソース」テクノロジーとの競争に直面しています。調査会社のIDCによると、新しいコロナウイルスのパンデミックによって、IoTへの支出計画も鈍化している。

先週、Armは2つのIoTソフトウェア事業をスピンオフしてSoftBankに戻り、コアチップテクノロジーに焦点を当てました。

IoTの収益は競争と経済的な逆風に制約されているため、Armは、より複雑なチップで使用されるテクノロジーの価格を引き上げることになりました。

「それは私たちにとって多くの緊張を引き起こしました」とあるアームのライセンシーはロイターに語り、技術の向上と釣り合いが取れていないように思われたと語った。

サンフランシスコのスティーブン・ネリスによる報告。グレッグ・ミッチェルとリチャード・チャンによる編集

当社の基準:トムソン・ロイター・トラスト原則。』

 ※ まあ、「商法」だ…。くり返し使われて来た「手口」だ…。
 ある程度の期間は、「お安く」提供して、「競合他社」が価格競争に敗れて、「死んだ」ら、それを見計らって「値段を上げて行く」…。
 x86系は、十分に「死んだ」と、判断されたんだろう…。
 (インテルから、ぼろぼろ「キー・エンジニア」が脱出しているからな…。そういう点では、「会社」「企業」は、「死んでも」、「セル(細胞)」の系譜は、生き続ける…)。
 ただ、こういう「テクノロジー」系の競争には、「ゲーム・チェンジ」「プラットフォームの大転換」が絡む…。
 今回のは、IoTにおいては、「高性能」よりも、「低電力消費」の方が、重要視されるという「大転換」があった…。


 x86系は、そこを乗り損なった…。


 まあ、栄枯盛衰、諸行無常、盛者必衰の理(ことわり)だ…。
 ARMの先行きも、知れたものじゃ無い…、ってことだ…。
 既に、RISC-Vとか、そういう「萌芽(ほうが)」が見えている…。

HT(ハイパー・スレッド)の話し…。

※ 以下の投稿は、例によってオレ個人の興味と関心に基づくものだ…。自分の「備忘録」用として、貼っておく…。興味も関心も無い人は、スルーしてくれ…。

ハイパースレッディング・テクノロジー
https://ja.wikipedia.org/wiki/%E3%83%8F%E3%82%A4%E3%83%91%E3%83%BC%E3%82%B9%E3%83%AC%E3%83%83%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0%E3%83%BB%E3%83%86%E3%82%AF%E3%83%8E%E3%83%AD%E3%82%B8%E3%83%BC

『現在のパソコンに使われるCPUはCISCと呼ばれるものが主流で、多くは一つのコアにコードを読み込み(ロード)、解釈(デコード)し、処理をスケジュールする装置を一つと、それを処理するパイプラインと呼ばれる演算装置を複数持っている。しかしスケジュールの能力に限りがあるため、例えば整数を処理するパイプラインが働いていても、浮動小数点やMMXなどのマルチメディア計算をするパイプラインが空いていることがある。

そこで一つのコアに搭載しているデコードやスケジュールをする装置を複数に増やし、一つのコアを論理的に複数のコアとして動作させることで、空いているパイプラインを埋めて効率を向上させることが考えられた。

ただしコードやデータの間にはお互いに依存関係があり並行処理できない場合がある。また複数の論理的なコアは一つのL2キャッシュを共有しておりデータやキャッシュ不整合が発生した場合はロックがかかり効率が低下する。

コアはキャッシュに対し速度が遅いメインメモリーの入出力が必要になるとパイプラインが空いていても処理できない。最近のCPUは処理するコードやデータの量がL2キャッシュの容量を超えるほど肥大化しメインメモリーの入出力が必要な場合が増えているため、メモリーコントローラーをチップセットではなくCPU自体に内蔵させてメインメモリーの入出力速度を向上させている。』
『ハイパースレッディングが特に有効なのは、整数処理と浮動小数点処理やマルチメディア処理というように異なるパイプラインを多用するソフトウェアである。殆どのソフトウェアでは論理部分の大半は整数処理であり、浮動小数点処理と多重化できる可能性が高い。

しかしマルチメディアでデータ量が大きくなると、ハードディスクやメインメモリーの頻繁な読み書きが必要となり効率が低下する。またデータのサイズがバラバラの場合は規則正しくロードすることができない。

従ってハイパースレッディングで効率が良いのは、比較的小さなサイズの整数処理のコードと、データサイズが小さい、もしくはデータサイズが大きくても配列が規則的な浮動小数点処理やマルチメディア処理の繰り返しが並行して行われている場合である。』
『一方苦手とするのは、例えばWindowsやLinuxのように雑多なDLLやライブラリー類が頻繁かつ非同期的にコールされ、またコードやデータが頻繁に更新される、いわゆるローカリティが低い場合である。この場合、複数のスレッドでCPUのデータ幅やL2キャッシュが細分化され(スラッシング)、ハイパースレッディングによって逆に効率が低下することもある。

そのため、ハイパースレッディングによって多くのユーザーが不満を持つソフトウェアの立ち上がり時間が短縮されないのはこのせいである。一方、音声や動画の変換や編集ではハイパースレッディングの効果が高くなる。通常入力データサイズが規則的なデータ圧縮のほうが入力データが不規則なデータ解凍より早くなる傾向がある。』
『ハイパースレッディングの利点として、もともと複数の物理的コアを利用できる対称型マルチプロセッシング対応のOSでは、特にソフトウェアを改変することなくハイパースレッディングによる複数の論理的コアを利用できることである。

すなわちハイパースレッディングはソフトウェアを改変せず利用できる透過性があることが特徴である。もちろんハイパースレッディングを意識した処理として実装しているかどうかによって効率は変化する。

なお、処理中のコードやデータを自ら書き換えていくような特殊なソフトウェアや、複数のスレッドが強い依存関係を持つ場合は効率が低下したりエラーとなることがある。また論理的コア同士の間でデータの秘匿に問題があるなど、ごく限られたケースながら問題が生じることがある。このため、多くのPCではBIOSなどでハイパースレッディングをオフとすることができるようになっている。』

1コアを2スレッド動作させる、HTテクノロジー
http://www.pasonisan.com/customnavi/z1012_cpu/03ht.html

※ この図が、分かりやすい…。ハイパー・スレッドの発想は、「パイプライン」をギッシリ埋めたら、それだけ処理の量が増加して、処理速度が速くなる…、というものだ…。スレッドを流し込む回路を、2本に増やして、空いているパイプラインに送り込もう…、というものだな…。

※ 実コア4個の場合で、説明している…。「HTなし」だと、右側の図の通り、パイプラインに「空き」が生じている…。これを「HTあり」にすると、その実コアのパイプラインの空いているところに、「処理命令(演算命令)」を流し込んで、「隙間なく」稼働させることができている…。それで、「処理量」全体としては、「4コア」+「4HT」で、あたかも「8コア」に匹敵するようなパフォーマンスが発揮できる…、というわけだ…。

※ そういう芸当を可能にするテクノロジーが、この図…。各「命令」には、「ID」が付されており、どこの「パッケージ」のどの「コア」で処理すべきなのか、指示している…、というわけだ…。

※ こういう「フラグ」が立てられている図は、インターネットの「TCP・IP」でも、見たな…。また、「VPN」のところでも見た(VPNは、TCP/IPの応用だから、当然と言えば当然だ…)。

※ まあ、同じような「発想」と言っていいんだろう…。

※ 実は、完全に「誤解」していた…。ハイパー・スレッドは、OSの「マルチタスク」における「アイドリング」状態を利用して、その状態に「スレッド」を発行して、OSレベルで騙すテクノロジーだ…、と理解していた…。

※ どこで、そう理解したのか…。何か、そういう文献でも読んだのか…。今となっては、分からんな…。

※ これだから、世の中恐ろしい…。一旦、「分かった」つもりになっていても、どこでどう「誤解」しているものか、知れたものでは無い…。

※ 何事も、「虚心坦懐」に、「一から学ぶ」という姿勢を忘れないようにすることが、大切だ…。

「Ryzen」のキモは、「SenseMI」…。

 ※ 以下の投稿は、全くの個人的な興味と関心に基づくものだ…。自分用の勉強と、「覚え書き」のための資料として、貼っておく…。
 というのは、最近、「PC自作屋界隈」では、「AMD」や「Ryzen」の人気が、にわかに盛り上がり、それで自分のシステムを組む人とか、BTO業界でも「ゲーミングPC」とかを販売したりする例が、増えて来ている…。
 それで、「Ryzen」のアーキテクチャには、ずっと興味があった…。「AMD、Ryzen CPUを搭載したSummit Ridgeをクレスト」の記事は、その一端を解説している…。
 そういうことで、「なーる…。そこが、キモなのか!」「分かったぞ!」と、ちょっとウレしくて、投稿にした…。
 だから、「AMDって、何?」「Ryzenって、何?」な人は、スルーしてくれ…。

アドバンスト・マイクロ・デバイセズ
https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%89%E3%83%90%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BB%E3%83%9E%E3%82%A4%E3%82%AF%E3%83%AD%E3%83%BB%E3%83%87%E3%83%90%E3%82%A4%E3%82%BB%E3%82%BA

Zen (マイクロアーキテクチャ)
https://ja.wikipedia.org/wiki/Zen_(%E3%83%9E%E3%82%A4%E3%82%AF%E3%83%AD%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3)

AMD、Ryzen CPUを搭載したSummit Ridgeをクレスト
https://techreport.com/review/31105/amd-crests-summit-ridge-with-ryzen-cpus/

(※グーグル翻訳文)
『これをお読みになると、AMDのNew Horizo​​nイベントが始まり、サーバーとデスクトップ向けの同社の次世代ハイエンドCPUに関する詳細が明らかになります。しかし、私たちはあなたよりはるかに先を行っています。先週、カリフォルニア州ソノマで開催されたAMD Tech Summitで、Ryzenシリコンを少し覗きました。はい、このハイエンドチップを初期の段階から導入したZenの名前はもはや存在しません。代わりに、デスクトップ用のZenパーツ(以前のコード名はSummit Ridge)を出荷すると、Ryzenという名前が付けられます。最近のReLiveソフトウェアアップデートの名前のように、 Ryzenはいくつかの異なる方法で発音できますが、AMDは「rye-zen」を支持しました。フェニックスのようなものです。』
『Ryzenの要点を説明する前に、AMDが赤ちゃんについて共有している新しい詳細のいくつかを最初に確認する必要があります。同社は、Ryzenの最上位製品には、3.4 GHzのベースクロックで実行される8つのコアと16のスレッドがあることを確認しました。これらのコアには、4MBのL2キャッシュと16MBのL3キャッシュがあり、パッケージ全体で印象的な95W TDPを備えています。AMDはまだRyzenのブーストクロックを公開する準備ができていませんでしたが、戦車には十分な余裕があったと確信していたようです。

また、Ryzenシリコンの健康状態についてのある種のチェックを見る必要がありました。AMDはIDFでのプレビューイベントの際と同様に、一般的なデスクトップワークロード(この場合は、Handbrakeビデオトランスコーディングツール)を実行する8コア、16スレッドのRyzenを示しました。今回、同社は、Ryzenエンジニアリングサンプルを3.4 GHzで実行するように設定しました。ホブリングされていないCore i7-6900Kに対するブーストはありません。前回AMDがこのような直接比較テストを実行したのは、3 GHzに制限されたi7-6900Kに対するものであったことを思い出してください。TDPが普遍的または相互比較可能な数字ではない場合でも、i7-6900Kが140W TDP CPUであることに注意するのも楽しいです。』
『ブレンダーCPUレンダリング中のRyzenのピーク電力消費

どちらのテストシステムの正確な詳細もわかりませんが、Ryzen PCはAMDのサンプルワークロードをi7-6900Kより数秒早く完了しました。おそらくより励みになるのは、AMDが完全なBlenderの負荷の下でこのRyzenサンプルのいくつかの消費電力を示し、それらはBroadwell-Eチップとほぼ同じであったことです。そのパフォーマンスは、Ryzenの速度には高電力料金が付いていないことを示唆しており、それは心強いニュースです。』
『AMDは、Ryzenの内部機能に関する興味深い詳細も明らかにしました。他の最近のAMDチップと同様に、Ryzen CPUには、チップの動作条件に関するリアルタイムの情報を中央プロセッサに提供する、熱センサーと電圧センサーのネットワークがダイ全体に散在しています。ブリストルリッジAPUとポラリスGPUにはすでにこれらのセンサーネットワークが搭載されていますが、簡単に参照できるように、AMDはこの監視ハードウェアネットワークを「SenseMI」と呼んでいます。』
『SenseMIは、チップ間のばらつきを考慮しない所定の安全マージンで焼き付けるのではなく、動的電圧および周波数スケーリングカーブの最適なポイントで特定のRyzenチップを実行できるようにします。この適応技術により、チップはより低い電圧で特定の周波数で動作し、効率を向上させることができます。これはAMDが「ピュアパワー」と呼ぶ機能です。SenseMIは、ブーストクロックをダイヤルインするときに、所定のチップに潜在的な周波数オーバーヘッド全体を抽出させることもできます。これは、AMDが「プレシジョンブースト」と呼ぶものです。』
『SenseMIは、「拡張周波数範囲」またはXFRと呼ばれる興味深い新機能もサポートしています。SenseMIは、Precision Boostフィードバックループを使用して、ビルダーがRyzen CPUにインストールする冷却ソリューションの効果を監視します。おそらく、レイスクーラーまたは同様のヒートシンクを取り付けると、Ryzenチップは標準のブースト範囲に到達できます。ただし、モンスタータワークーラーまたはクローズドループの液体クーラーをRyzen CPUの上に置くと、チップは追加のサーマルヘッドルームを自動的に利用して、指定された範囲を超えてブーストできます。冷却ソリューションが強力であればあるほど、Precision Boostが押し上げる能力が高くなります。十分に単純です。』
『AMDは、現代の高性能CPUアーキテクチャの珍しい一歩として、Ryzenブランチプレディクタの詳細についても話し合いました。同社は、最新のCPUでニューラルネットワークを利用した予測アルゴリズムを使用していると述べています。その説明はマーケティングの綿毛のように聞こえるかもしれませんが、効果的な分岐予測はすでにシステムを学習しており、ニューラルネットワークは現在ホットなトピックですが、流行語にとらわれるだけではありません。AMDシニアフェローのマイククラークはザレジスターに、Ryzenは今年初めのHot Chipsカンファレンスでハッシュされたパーセプトロンアルゴリズムを使用すると語った。一方でパーセプトロンは、基本的なニューラルネットワークであってもよい、それはまだ、ニューラルネットワークです。

簡単なGoogleは、パーセプトロンを利用した分岐予測子のアイデアはチップ設計において新しいものではないことを示唆していますが、これらのタイプの予測子は非常に正確なパフォーマンスを提供するように見えます。これは、どのCPUにとっても朗報です。AMDの従業員との私の会話は、今後のブリーフィングでこのトピックについてさらに学ぶことを示唆しているので、今のところピッチフォークに立ち向かうことができます。AMDはまた、Zenの「スマート」データプリフェッチャーを売り込んでいますが、CPUパフォーマンスのこの重要なコンポーネントを改善するために何をしているのかについては何も示唆していません。それについての説明も待つ必要があると思います。

Ryzenがこれらの約束を果たすことができれば、AMDはゲーム用PCの世界におけるいくつかの好ましいトレンドをサーフィンする可能性があると考えています。同社は、ゲームハードウェアの市場は2015年から2018年にかけて25%の急成長の真っ只中にあると予測しており、VR PCの市場は特に今年は100万台未満から2020年には1000万台以上に成長すると予測しています。Dota 2やLeague of LegendsなどのeSportsタイトルの人気の高まり、およびTwitchストリーミングの爆発的な人気は、すべて、新規および既存のゲーマーが新しいハードウェアへのアップグレードを検討している可能性があることを示唆しています。これらのPCがRyzen CPUとRadeonグラフィックスカードを中心に構築されている場合、AMDは収益拡大のために非常に必要とされているショットを楽しむことができます。

Ryzenハードウェアを使用できるようになるまでには、少し時間がかかりますが、AMDはこのCPUファミリとそのパフォーマンスに関する楽観的な理由を引き続き提供しています。先週の同社のデモンストレーションでは、Ryzen部品は、パフォーマンスとワットあたりのパフォーマンスの両方の観点から、Broadwell-Eチップと競合する可能性が最も高いことが示されました。AMDが3.4 GHzのベースクロックでのみ動作するエンジニアリングサンプルでそのパフォーマンスを達成したという事実は、マルチスレッド化されていないワークロードでも、これらのチップからさらに多くのパフォーマンスを引き出すことができることを示唆しています。XFRなどの機能は、強力なクーラーでRyzenを使用することを計画している愛好家にとって、おそらくさらに優れたパフォーマンスの報酬を約束します。すべて手動のオーバークロックの頭痛はありません。』

Macのプロセッサー、自社開発 アップル

Macのプロセッサー、自社開発 アップル、来年までに計画と報道
https://this.kiji.is/626152012670829665

『【ニューヨーク共同】米ブルームバーグ通信は23日、米アップルがパソコン「Mac(マック)」に、頭脳を担うプロセッサーを自社開発して搭載し、来年までに発売することを計画していると報じた。スマートフォン「iPhone(アイフォーン)」では既に自社開発しており、基盤技術の共通化でアプリ市場の拡大を促進する。

 米インテル製から徐々に移行する。独自開発により、他社製パソコンとの性能の違いを出し、新製品の発売サイクルも短縮しやすくなるという。自前開発品はノートパソコンの入門機種から搭載する見通しだ。』

アップルが描く「インテルなき未来」と、見えてきたいくつもの課題(2018.04.08)
https://wired.jp/2018/04/08/apple-quitting-intel-processors/

『ブルームバーグのガーマンによると、アップルは10年以上にわたってMacに搭載されていたインテルの「x86」シリーズを、iPhoneと同じ「ARMアーキテクチャー」のチップに変えようとしている。ただ、ここには少なくとも2つの難題がある。

まず、プロセッサーそのものに関する技術的なことだ。ARMアーキテクチャーは効率には優れているが、パワーはインテルの上位クラスのチップにはるかに及ばない。Macへの独自チップの採用は早くても20年になると言われているが、業界専門家はそれまでにARMの半導体がインテルに追いつくか疑問を呈している。

ハイテク分野のコンサルタントであるパトリック・ムーアヘッドは、ARMアーキテクチャーを「計算能力という点で見れば(インテルのエントリーモデルの)『Core i3』か『Core i5』のローエンドモデル程度でしょう」と説明する。「いずれにしろ、20年までにARMアーキテクチャで『Xeon』や『Core i7』に近いパワーをもつチップができるとは思いません」』
『一方で開発側は、これまでのアプリをARMベースの「OS X」に対応させるために、ほかの仕事を中断しなければならなくなるかもしれない。10年以上前にアップルがインテルに乗り換えたときもそうだった。

「インテルを切り離す場合、すべてが完全にうまくいくような“魔法”はありません。かつてCPUをIBMの『PowerPC』からインテルに切り替えたときも、PowerPCベースのアプリがインテルのチップでも動くようにする魔法はありませんでした」とムーアヘッドは言う。「大半はコンパイルをやり直さなければなりません。プログラムの完全な書き換えが必要になるものもたくさんあるでしょう」』

PowerPC
https://ja.wikipedia.org/wiki/PowerPC

『設計特徴
PowerPCはRISCの思想で作られており、スーパースカラ方式で命令を実行する。

ベースにしたPOWERの特徴に、さらにいくつかの変更を加えた。

POWERアーキテクチャのうち、複雑なものを省いた命令セット。RISCプロセッサとしては、比較的複雑な命令も含む。
バイエンディアン(ビッグエンディアンおよびリトルエンディアンのサポート。G5を除く)
単精度浮動小数点演算に倍精度浮動小数点演算の追加
32ビット命令と完全下位互換の64ビット命令セット
32個のGPR(汎用レジスタ)と32個のFPR(浮動小数点レジスタ)
サブルーチンの呼出規約は一般的なRISCチップとは異なりスタック渡しである。実際は10個の引数までレジスタ渡しが行われるが、データのビット数によっては使用可能なレジスタ数が減少したり、非揮発性レジスタの退避などを行う必要がある。
1本のカウントレジスタ。専用の分岐命令などと組み合わせてループのカウントなどに利用する。
複雑な命令など一部を除き、命令は基本的にハードワイヤード (Hard-Wired) ロジックで実装(一部マイクロコードで実装)
G4(第4世代)シリーズでは128ビット単位でベクトル演算を行う『AltiVec(IBMはVMX、アップルコンピュータではVelocity Engineと表現している)』を採用。付随する専用のレジスタは32本。
8本の4ビット条件レジスタ(いわゆるステータスレジスタやフラグレジスタと呼ばれるもの)。詳細はステータスレジスタの項を参照。
原則として、現在のスタックのメモリアドレスを指すベースポインタを持たない。代りに汎用レジスタの一つを用いる。この規則はABIに依存するが、大抵の場合そのレジスタは1番の汎用レジスタである。また、0番の汎用レジスタは、命令によってはゼロレジスタの代用として用いられることがある。
静的な分岐予測を命令単位で設定できる。
条件分岐命令は8×32×17=4352通り(分岐予測を含む)の条件を組み合わせることが可能である。
1998年のPOWER3以降は、POWERも64ビットPowerPC仕様に準拠したアーキテクチャを採用している。』

ファーウエイ離れ、ジワジワ拡大(その3)

<独占報道>日本・住友電工の光ファイバー技術、ファーウェイ経由で中国軍に渡った=米国防省筋
https://www.epochtimes.jp/p/2019/05/38602.html

米AMD「今後しない」 中国合弁先への技術移転
https://www.nikkei.com/article/DGXMZO45346180Y9A520C1FFE000/

※ 普通の人は、AMDと言われても、「何それ?」と言う反応が多いんじゃないか…。

※ ましてや、Xeon(ジーオンと読む)とか、EPYC(エピックと読む)とか言われても、「?」という感じだろう…。

※ まあ、興味のある人(そういう人も、いないだろうが)は、リンクを辿って、見ておいてくれ…。

アドバンスト・マイクロ・デバイセズ (Advanced Micro Devices, Inc. / AMD)
https://ja.wikipedia.org/wiki/アドバンスト・マイクロ・デバイセズ

「CPU」の基礎から見方、比較、選び方まで徹底解説
https://pcpedia.biz/cpu/

Xeonを駆逐する最大32コアCPU「AMD EPYC」のスペックまとめ
 ※ 「EPYCが安価な理由」『その理由が製造方法である。「Ryzen 3 / 5 / 7」に使われているCPUダイは「Summit Ridge」と呼ばれるもの。このダイは良い具合に出来上がると最大8コアとして使えるようになる。
この8コアダイを2つ組み合わせて作ったのが「Ryzen Threadripper」(最大16コア)で、4つ組み合わせたものが4つの「Zeppelin」ダイを搭載してこの「EPYC」(最大32コア)というわけだ。
要するに、Zenラインナップはすべて、たった1種類のダイ「Ryzen 3 / 5/ 7」「Ryzen Threadripper」までは「Summit Ridge」ダイで、EPYCは「Zeppelin」ダイなので使われているダイは2種ですね。
それでもダイの種類が少ないほど製造に必要な設備は最小限に抑えられるし、不良化してしまっても寄せ集めてマルチコアにすればいい(つまり歩留まりが良好)。だから安価に作れる。というイメージで大丈夫。』と言う辺りは、興味深い(ジジイにとってはな)。
https://chimolog.co/bto-cpu-amd-epyc/(2017.06.17)

AMDーアドバンスト・マイクロ・デバイスー独自路線を歩む半導体銘柄の株価は?配当利回りは?
https://amkabu.com/analysis-amd

半導体の米AMD株が大幅高 データセンター向け新型CPU発売で期待(2017/6/22)https://www.nikkei.com/article/DGXLASFL21HJJ_R20C17A6000000/

AMDが32コア/64スレッドのCPU「EPYC」とグラフィックカード「Radeon Vega Frontier Edition」を発表(2017年05月17日)https://gigazine.net/news/20170517-amd-epyc/

AMDは新プロセッサ「EPYC」と新ロードマップで市場奪還を目指す(2017年5月23日)https://japan.cnet.com/article/35101430/

6兆円市場で対決 王者インテルvs. AMD「新世代CPU争い」 —— 再びシェアを獲れるのか?
https://www.businessinsider.jp/post-35027

Zenコアの「EPYC」でサーバー市場奪還を目論む AMD CPUロードマップ
https://ascii.jp/elem/000/001/485/1485192/

中国半導体受託生産最大手SMIC、米NY上場廃止
 ※ 2017年のファウンドリ・ランキング第5位の企業だ( 2017年の半導体ファウンドリランキング – 売上高10億ドル超は8社 https://news.mynavi.jp/article/20180427-622956/ )
https://www.nikkei.com/article/DGXMZO45318480X20C19A5FFE000/

ファーウェイのスマホ、シェアが3分の1に激減、経済制裁決定後1週間で
https://headlines.yahoo.co.jp/hl?a=20190526-00119771-bcn-sci

米議会、中国人留学生“排除”に本腰 「ビザ発給禁止」共和党議員が法案提出…日本に同じ措置要請も? 最先端技術の流出阻止へ
http://www.zakzak.co.jp/smp/soc/news/190524/soc1905240002-s1.html

ファーウエイ制裁関連情報(その3)

スマホ開発困難に ファーウェイまとめ読み
https://www.nikkei.com/article/DGXMZO45200650T20C19A5MM8000/

ファーウェイ半導体戦略、根底揺らぐ 英アーム取引停止
https://www.nikkei.com/article/DGXMZO45153370T20C19A5I00000/?nf=1

 ※ 『グーグルによると、アンドロイドはアームと米インテルなどの「x86」と呼ばれる半導体がなければ作動しない。ファーウェイが開発を進めるとされる自前のOSはアンドロイドを土台にしているため、アームに頼らない半導体をつくれたとしてもOSが動かせないリスクがある。』と言っているが、マシン語としてアームのCoretexコアか、インテルのx86系の命令セットに対応してる、という意味だろう。
 Coretexコア系は、待機してる時と、フルに処理を行う時とで、稼働させるコアが2系統あって(2本立てになってる。big.LITTLEアーキテクチャ、と言うらしい)、省電力性能が高い(電池の持ちがいい)のが特徴だ。

上が、省電力系のパイプラインで、下がパワー系のパイプラインの概念図だ。詳しい内容は分からなくても、上は簡素・省電力、下は複雑・パワーもりもり・電力喰いだろうな、くらいは見当がつく…。この二系統を、シームレスに切り替えて、省電力と高性能処理を両立させているのだ、と言うことだ。

これに対して、x86系は、電力をゴリゴリ使用して、マルチメディアの処理に強い(命令セットを拡張に継ぐ拡張で、対応させて来た)。しかも、内部でRISCの設計思想を取り入れたマイクロアーキテクチャを採用している。それで、省電力性能はそれほどでも無いが、処理が早くキビキビ動くと言う特徴がある。

※ ここでは、6段のパイプラインとなっている( スーパースカラって何? (1/3)
https://ednjapan.com/edn/articles/1702/24/news018.htm )。

※ しかも、シングルの構成だけでなく、複数のパイプラインを設置する設計もあるようだ(スーパースカラとか、言うらしい)。パイプラインの段数を増やせば、また、複数のパイプラインを設置すれば、それだけ電力消費は多くなる…。電流を流す部分が、多くなるわけだからな…。


 それと、ARM社、ファーウエイ(または、ハイシリコン)社、TSMC社なんかの関係について、語っておく。
 ARM社は、CPUの企画・設計・開発に特化した会社だ。自社では半導体の「製造」には携わらず、開発した「設計図」のデータを、ライセンスとして他社に供与し、利益を上げている。その形態も種々のものがあるようで、中には、その購入した設計データを、半導体製造機械にセットすれば、それだけで製造が可能となるものもある、と言われている。それと、ユーザー自身が改良・付け加えの余地を広く認めているのが、特徴だとも言われている。そういう改良・付け加えの後のもので有名なのは、Snapdragonとか、Kirinとか、サムソンだったらExynos(エクシノス)とかだ。
 半導体製造設備は、製造機械も含めて、クリーンルームとか、必要となるものも多く、その設置・保有は、巨額の資金を必要とする。しかも、一旦設置すると、受給に応じて細かく製造量を調節するのが難しいものとなる。それで、「ファウンドリ」と呼ばれる、受託生産に特化した会社が、実際の製造を担う形になった。そうしておけば、企画・設計企業は、製造リスク・在庫リスクを負わずに済むからな…。TSMC社とか、ハイシリコン社とかは、このファウンドリだ。
 ファーウエイとか、サムソンとかは、そういう受託生産会社(ファウンドリ)が製造したCPUや、他の部品を購入して、最終製品であるスマホを組み立ててるわけだよ。
そういうことで、『ファーウェイは現行モデルのライセンスを使い続ける権利は押さえているとみられ、すぐに生産停止に追い込まれることはなさそうだが、今後の半導体開発ではアームの協力を得られなくなる可能性が高い。
中国の半導体専門の大学で副教授を務める張芸蒙氏は日本経済新聞の取材に「当面の影響は大きくないが、アームの技術協力を受けずに新しい半導体を開発するのは難しくなる」と述べた。』とか言う話しに、なるわけだ。
 ただ、『ARMはファーウェイとの取引を止めると発表しましたが、既にイギリスARMから15分の所にファーウェイのチップR&D工場ができたので、ARM技術をイギリスで移転すればTSMCで作って何の問題もない。』と言う情報もある( http://fukadamoe.blog.fc2.com/blog-entry-4179.html )んで、ファーウエイとしては、あの手この手で抜け道を探って行く、日本企業もそういうことの隠れ蓑に使われる危険性がある…、ということになりそうだな…。

アーム coretex
https://www.bing.com/search?q=%e3%82%a2%e3%83%bc%e3%83%a0+coretex&FORM=HDRSC1

x86コア
https://www.bing.com/search?q=x86%e3%82%b3%e3%82%a2&FORM=HDRSC1

ファーウェイ、新型スマホ「影響を受けることはない」
https://www.nikkei.com/article/DGXMZO45209030U9A520C1000000/

ARMの省電力技術「big.LITTLE」がいよいよモバイル機器にお目見え
https://pc.watch.impress.co.jp/docs/column/kaigai/577351.html

電力の削減と高性能の両立を狙ったARMのbig.LITTLE
https://news.mynavi.jp/article/architecture-304/

What Is ARM big.LITTLE?
https://www.ubergizmo.com/2013/01/what-is-arm-big-little/

ファーウエイ制裁関連情報(その2)

パナソニック、ファーウェイと取引中止も 米禁輸で社内通達
https://www.sankei.com/economy/news/190523/ecn1905230020-n1.htm

ファーウェイ離れ、世界で スマホ最新機種を発売延期
https://www.nikkei.com/article/DGXMZO45142070S9A520C1MM8000/

ファーウェイ日本代表「米規制に粘り強く対応」
https://www.nikkei.com/article/DGXMZO45108120S9A520C1000000/?n_cid=SPTMG053

英アーム、ファーウェイとの取引「米に従う」 停止示唆
https://www.nikkei.com/article/DGXMZO45152290T20C19A5000000/

ファーウェイと一部取引中止へ パナソニックやアーム
https://www.nikkei.com/article/DGXMZO45147380S9A520C1MM8000/?n_cid=SPTMG002

英アーム、ファーウェイと取引停止か BBC報道
https://www.nikkei.com/article/DGXMZO45142560S9A520C1MM8000/

ソフトバンク傘下の英アーム、ファーウェイとの取引停止へ
https://www.bloomberg.co.jp/news/articles/2019-05-22/PRWMRL6TTDS301

英アーム、ファーウェイとの取引停止へ=BBC
https://jp.reuters.com/article/huawei-tech-arm-idJPKCN1SS16E

アームとの取引停止問題、解決可能=ファーウェイ
 ※ 『BBCによると、アームは社員に対し、ファーウェイとその子会社との既存の契約やサポートなどを停止するよう指示。社員への通達は、米政府がファーウェイへの米製品の輸出を禁止すると発表した翌日の5月16日に行われた。アームの設計には米国を原産地とする技術が含まれるという。』
https://diamond.jp/articles/-/203409

※ ARM社が、取り引き停止を社員に指示した…と言うことなんだが…。

※ 特に最後のは、「既存の契約」まで停止する…、と言うことなんだが…。そんなことが、できるのかね…。多額の損害賠償ものの話しになるんじゃないのか…。Coretexのライセンスの供与と言うのは、何かそういう特約でも付けているものなのかね…。

※ いずれ、ファーウエイは、ARM社のCoretexのライセンスを使って、スマホのCPUを製造もしくは製造委託していた(子会社のハイシリコンが担当してたのか…)。

※ そのライセンスが使えないとなると、CPUの製造もしくは製造委託はできないという話しになる…。

※ しかし、そういうことが法律上・契約上できるものなのかね…。既に、なんらかの金銭的なものは支払い済みなんだろう…。オレには、ちょっと見当がつかないな…。

ファーウェイの息の根を止めかねない、米制裁「異次元の厳しさ」
https://diamond.jp/articles/-/203400

中国IT大手「ファーウェイ」の正体、米国が最も潰したい企業
https://diamond.jp/articles/-/179812

ファーウェイはなぜ大問題なのか、早わかりQ&A
https://diamond.jp/articles/-/187921

アメリカはソフトバンクがArm社を買収した時点からマークしてた…、という情報があったんで、紹介しとく。

http://fukadamoe.blog.fc2.com/blog-entry-4059.html

 これが本当だとすると、Arm社設計・開発のcoretexシリーズのライセンスが、ファーウェイと関係が深いとされるソフトバンクを通じて、ファーウェイに流れていくことを、買収の段階から警戒してた、ってことになる。

 まあ、実際にKirin( https://www.gizmodo.jp/2018/08/huawei-kirin-980.html )とか、開発してるわけだからな…。そういうことに、どの程度ソフトバンクが噛んでたのかは、知らないが…。

 いずれ、ソフトバンクは、ちょっとマズい立場に立たされた、ということになるんじゃないのか…。

マシン語の話し

 ※ Javaの話しとか、サイバー攻撃の話しの記事を読むとき、ある程度は理解しといたほうがいいと思われるのは、「マシン語」とか、「コンピューターが、動作する仕組み」とかの話しだ。                          『2段階方式で脱Java、JACICがオラクルと特別契約』
https://tech.nikkeibp.co.jp/atcl/nxt/column/18/00001/01412/?P=1

  それで、以下の投稿は、今年の3月に作ったものなんだが、まあ今でも役に立つところはある、と思われるので、紹介しとく。                  http://www.sankei.com/world/news/180316/wor1803160018-n1.html 
         
 『韓国の仲介で、米朝首脳会談が行われるような流れになってる感じだが、その裏で北朝鮮は活発に韓国にサイバー攻撃を行っていた訳だ。韓国の出方を探って、交渉を自国に有利に運ぼうという作戦だろう。
 その手口なんかをちょっと詳しく解説してるのが、以下の記事だ。このサイトは、ウイルス・マルウエアやダーク・ウェブ(ウイルスやマルウエアを有料で販売したりしてる、危ないサイト)、それらの作者への匿名でのインタビュー記事なんかが載ってるんで、結構参考になる。
(『北朝鮮のサイバー攻撃グループ「APT37」が活発化』
 https://the01.jp/p0006529/ )

それで、これらの記事に出てくるちょっと専門的な用語について、説明しておく。                                     
※ https://tech.nikkeibp.co.jp/it/article/lecture/20070820/279875/  画像は、ここからお借りした。

「コンパイル」:本来は、「翻訳する」とか「置き換える」、ってな意味だ。
 コンピューターは、結局CPU(Central Processing Unit 中央演算装置)で電子の0(電子がない)と1(電子がある)の情報(電子があると、電流が多く流れる。電子がないと、電流が少なく流れる。電子の有る無しを、電流の流れに置き換えて(交流の山と谷を、1と0と判定して)操作してるだけのもんで、8bitとか16bitとか32bitとか64bitとかいうのは、一度に処理できる「0と1の個数」を指している。
 8bitだと、一度に00101100みたいな8個の0と1の羅列を処理できるっていう話しで、16bitだとこれが16個という話しになる(bitというのは、1組の0と1という単位。デジタルの2値って、このこと)。32bitは32個、64bitは64個の0と1の羅列…という話し(32個の箱や64個の箱の中に、それぞれ0または1が入ってる、というイメージ)。
 だから、コンピューター(CPU)は、そもそもがこういう0と1の羅列しか取り扱えない。8bitのマシンは、00101100とか00101000とかしか取り扱えない。こういう、CPUで処理させようとする0と1の羅列を、「マシン語」という。
 コンピューター(CPU)の処理は、大体が指定されたデータの場所(アドレスという)のデータに対して、一定の処理をする(「命令」)という形になる(※ こういう0と1の羅列を、「データの場所」と「命令」に分けて取扱う(データの場所と命令を、混在させて取扱う)という仕組みを思いついた人が、フォン・ノイマンって人だ。まあ、天才の一人だな。イギリス国籍のユダヤ系の人だ。それで、このタイプのコンピューターを「ノイマン型」と言う)
 大体において、8bitの場合は上位4bitが「データの場所」を指して、下位4bitが「命令」を指していたり、レジスタ(CPU内部のデータを一時置いておく場所。まあ、高速メモリってな感じのもんだ)を2本使って、8bitの「データの場所」+8bitの「データの場所」計16bitのデータの場所という風に扱う場合もあるようだ。
 こんな風に、同じ0と1の羅列でも、それがどんな意味か、どういう「データの場所」の指定なのか、どういう「命令」なのかは、そのCPUで違う(CPUの設計・製造メーカーが、それぞれの設計・製造思想に基づいて設定してる)わけだよ。
 それで、このマシン語は、0と1の羅列で「00101100」とか「00101000」みたいなもんだから、これでプログラムを作るのは大変だ。まあ、初期の頃はシコシコやったらしいし、これでプログラムを作れる名人みたいな人もいたらしい(今でも、ソニーのプレステは、どっちかというとこのマシン語寄りでプログラムを作ってるという話しだ。そっちの方が、真似されにくいんで、わざとそういう風にしてるという話しも聞いた。だから、今でもXboxでは作り出すことが難しいタイプのゲームを作ることができて、競争力を保持してるという話しを聞いたことがあるぞ)。
 しかし、プログラミングの生産性は上がらないし、当然ミスも多くなる(0と1の1個でもミスったら、アウトだ)。いくら何でも酷くね、って話しになった。
 それで、登場したのが「プログラミング言語」だ。もう少し人間にも分かりやすい言語で書いて、それを「マシン語」に置き換えたらいいんじゃね、っていう発想だ(この、マシン語への翻訳・置き換えをコンパイルと言い、コンパイルするソフトを、コンパイラと言う)。
 最初に登場したのは、「アセンブリ言語」だ。
 例えば、「mov A B」(AをBに、移動する(move)する)、「comp A B」(AとBを比較(compare)する)、「add A B」(AにBを加える(add)する)みたいな感じで記述した。
 使われた記述が、「mov」「comp」「add」のような英単語を省略したようなもんなんで(英語圏の人にとっては)理解しやすいもんだったが、「A B」の部分が、前述した「レジスタ」に限定されていた(各CPUの内部に一般のプログラマーが自由に使える、高速メモリってな感じのものー(「汎用レジスタ」と言う)が設置されているんだが、CPU毎にバラバラ(前述のように、各CPUメーカーが、それぞれ勝手に設計・製造してた。今でも、そう)なんで、CPUが異なるマシンに向けて移植が大変だった)。また、命令がCPUのできる処理とほぼ1対1対応だったんで、あまり複雑な処理を記述するのに向かなかった。アセンブリ言語をマシン語に変換するソフトを、アセンブラ(コンパイラと対をなしてる感じだな)というらしいのだが、オレは使ったことはない。大体、アセンブリ言語も本で読んだことがあるだけだ。
 それで、1973年(たかだか、45年前の話しだ)に開発されたのが「C言語」だ。
「#include
int main(void)
{
printf(“Hello, world!\n”);
return 0;
}」
ってな感じのもんだ。
 ざっと意味を説明しようとしたんだが、長くなったし、あまり興味もなかろうと思うんで、省略する。
 上記の記述のプログラムをコンパイルして実行すると、使っているマシンのディスプレイに「Hello World!」って表示される。
 上記の記述をコンパイラでコンパイルすると、マシン語に変換されて、各CPUで実行することができる、ってわけだ。』