Arm、Cortex-X4やA720を発表。PC向けにX4×10+A720×4コア構成も可能

Arm、Cortex-X4やA720を発表。PC向けにX4×10+A720×4コア構成も可能
https://pc.watch.impress.co.jp/docs/news/event/1504067.html

『AIによる要約

英Armは、COMPUTEX TAIPEIの会場で、2023年向けPC・スマートフォン用SoCデザインIP群新製品TCS23を発表。CPUはCortex-X4、Cortex-A720、Cortex-A520に強化され、プライムコアCortex-X4は前世代比で15%性能向上、40%電力効率改善される。GPUは新しいアーキテクチャのImmortalis-G720が採用され、従来世代比でピーク性能と電力効率が15%向上、メモリ帯域の負荷が40%減少。さらに、クラスタコントローラDSU-120が提供され、14コア構成が可能に。CPUやGPUの性能向上が特徴のTCS23は、Armv9.2-Aに対応し、全体で64bitのみ対応する。今後の製品発表に期待が高まる。

この要約はChatGPTによって自動生成されたものであり、原文の完全性や正確性を保証するものではありません。この機能はベータ運用中です。
×』

『 笠原 一輝

2023年5月29日 09:30

Cortex-X4、Cortex-A720、Cortex-A520から構成されるTCS23のCPUクラスタ

 英Armは、COMPUTEX TAIPEIが行なわれている台湾・台北市内の会場で記者会見を開催し、2023年のPCやスマートフォン向けSoCのデザインIP群新製品TCS23(Total Compute Solutions 23)を発表した。

 TCS23は、昨年(2022年)発表されたTCS22(CPUはCortex-X3、Cortex-A715、Cortex-A510、GPUはImmortalis-G715)から、CPUも、GPUも大幅に強化される。CPUはプライムコアがCortex-X4に、高性能コアがCortex-A720に、高効率コアがCortex-A520にそれぞれ強化される。プライムコアのCortex-X4は前世代に比較して15%性能が向上し、40%電力効率が改善される。

 GPUのImmortalis-G720は同社が「第5世代」と呼んでいる新しいGPUアーキテクチャを採用しており、従来世代(Immortalis-G715)に比較してピーク時の性能と電力効率が15%、メモリ帯域への負荷が40%減少するとArmは説明している。

 また、同社がDynamIQ Shared Uinit(DSU)と呼んでいるクラスタコントローラはDSU-120が新たに提供されることになり、Cortex-X4が10コア、Cortex-A720が4コアという14コア構成が可能になり、Arm版Windows(WoA)で高い処理能力を実現するPC用のSoCをデザインすることも可能になる。

Cortex-X4、Cortex-A720、Cortex-A520から構成されるTCS23のCPUクラスタ

ここ数世代のCPUの進化

 ここ数年、ArmはCPUやGPUのデザインIPを製品群として、1つのパッケージとして提供するようになっている(もちろん顧客となる半導体メーカーは単体のデザインだけを選択することも可能)。ArmではそうしたスイートをTCSと呼んでおり、毎年の新製品は西暦の下2桁の数字を冠して呼ばれる。2021年モデルであれば、TCS21、2022年モデルであればTCS22と呼んでいる。

【表1】TCSの変遷 TCS21 TCS22 TCS23
CPUプライムコア Cortex-X2 Cortex-X3 Cortex-X4
CPU高性能コア Cortex-A710 Cortex-A715 Cortex-A720
CPU高効率コア Cortex-A510 Cortex-A510 Cortex-A520
CPUクラスター DSU-110 DSU-110 DSU-120
GPU Mali-G710 Immortalis-G715 Immortalis-G720
MMU(メモリ・マネージメント・ユニット) MMU-700 MMU-700 MMU-700
キャッシュ・コヒーレント・インターコネクト CI-700 CI-700 CI-700
ネットワーク・オン・チップ・インターコネクト NI-700 NI-700 NI-700

 そうして進化してきたArmのIP製品群最新版がTCS23となる。TCS23ではCPUも、GPUも、そしてCPUのクラスタを構成するコントローラとなるDynamIQ Shared Uinit(DSU)も更新されており、それによりSoC全体での性能が向上していることが大きな特徴となる。

 Armのスマートフォン/PC向けCPU IPデザインは、プライムコア、高性能コア、高効率コアという3種類のCPUコアが用意されている。プライムコアのCPUコア数を増やせば性能を向上させることができるが消費電力は増え、逆に高効率コアを増やせば性能はそれなりだが、消費電力を減らすことが可能になる。
Cortex-X4

 Armのプライムコアは、近年Cortex-Xのブランドで呼ばれており、2023年のモデルはCortex-X4になる。Cortex-X4の特徴はIPC(Instruction Per Clock-cycle)の向上にある。ArmはCortex-X4が前世代のCortex-X3と比較して、SPECRate2017_int_baseのピーク性能で15%向上しており、さらに電力効率では40%ほど改善していると説明している。

 最近のArm CPU、特にAppleのMシリーズやAシリーズなどでは、シングルスレッドの性能が大きく引き上げられており、Cortex-X4でIPCが引き上げられたということは、シングルスレッドの性能もそれに合わせて引き上げられていることになる。なお、L2キャッシュに関しては1つのCPUコアあたり最大2MBの構成が可能になっている。

Cortex-A720

 高性能コアはCortex-A720になる。以前の高性能コアはシングルスレッド時の性能を実現するCPUコアとして利用されていたが、現在はプライムコアがその役目を果たしているため、高性能コアは性能と消費電力のバランスをとりたいようなCPUコアとして選択されることになる。そのため、やみくもに性能を引き上げるという改良が加えられるのではなく、同じ消費電力で、より性能が向上する。そうした改良が加えられている。

 L1キャッシュは命令/データそれぞれが32KBないしは64KB、L2キャッシュは128KB、256KB、512KBから顧客が選択することが可能なことなどは従来世代と近似だ。ArmによればCortex-A715に比べて20%電力効率が改善している。

Cortex-A520

 高効率コアのCortex-A520も同様で、前世代となるCortex-A510を元に、ダイに占める面積が22%削減されているのに、性能は8%向上している。1つのコンプレックスにつき2つのCPUコアがある構成になっており、コンプレックス単位でCPUコアを増やしていくことが可能になる。CPUコア1つあたりに32KBないしは64KBのL1データ/命令キャッシュ、コンプレックス1つあたりに0~512KBのL2キャッシュを実装することが可能になっていることなど基本的なアーキテクチャは従来製品と近似している。ArmによればCortex-A510に比べて22%電力効率が改善している。

前世代と比較して20~22%の電力効率が改善

高効率コアも64bitのみになり、32bit互換性はなくなり、性能や電力効率が向上
昨年発売のデバイスから64bitだけに対応したAndroidデバイスが登場している

 こうしたTCS23の大きな特徴は、3種類すべてのCPUが命令セットアーキテクチャはArmv9.2-Aに対応し、64bit(AArch64)のみに対応していることだ。というのも、TCS22では高効率コアのCortex-A510が32bit(AArch32)にオプション(つまり半導体メーカーが32bit実装することが可能だった)で対応していたが、Cortex-A520では64bitのみに変更されているからだ。

 プライムコアと高性能コアに関してはCortex-X3およびCortex-A715で既に64bitのみになっており、今回Cortex-A520が64bitのみとなったことで、TCS23全体で64bitのみに対応することになる。

 このことはAndroidプラットフォームが、32bitを廃止して64bitへ移行しようとしている流れと連動している。Googleが昨年発表したPixel 7シリーズは64bitのみに対応しているほか(ただしCPUのアーキテクチャとしては32bitにも対応している)、同じく昨年MediaTekが発表したDimensity 9200に関しては、Cortex-X3+Cortex-A715+Cortex-A510になっており、ハードウェアとしては64bitのみに対応するようになっている。

ArmV9.2では複数の命令が追加されている

 実際、Googleは開発者に対して64bitアプリへの移行を促しており、現時点では主要なアプリケーションに関しては64bitへの移行が済んでおり、フリーソフトなどで更新がとまっているようなものだけが32bitのままという現状になっている。このため、既にAndroid OSのデバイスとしては64bitのみで問題ないというのがArmの基本的な考え方になる。

 Armが64bitへの移行を進める背景には、32bitの互換性を残しておくことが、性能競争の観点から不利になる可能性があるからと考えていると推察できる。32bit命令に対応するためには、ダイにそのためのエリアを残さないといけず、ダイサイズの肥大化を招くことになるし、その結果として消費電力も増えることになる。

 実際、Appleは、Aシリーズの64bit化を、Androidよりも早く実現しており、それがAシリーズの高性能につながっていることを指摘する関係者は少なくない。その意味でも、Android陣営も早期に64bit化を実現することが求められていたのだ。

 ただし、その結果として32bitとの互換性はなくなるので、64bit版がないアプリケーションやOSは動作できなくなる。Android OSとGoogle Playストアで配布されるアプリに関しては既に64bit化が済んでいるのでほぼ問題ないと言えるが、組込系のOSやアプリケーションなどではまだまだ32bitの互換性を必要とする場合があると考えられる。実際、Qualcommは、現行製品のSnapdragon 8 Gen 2の高性能コアをCortex-A715とCortex-A710を2コアずつ搭載している4コア構成にしている。

関連記事

【笠原一輝のユビキタス情報局】TSMCの4nmで製造され、ユニークな構成のCPUを内蔵するSnapdragon 8 Gen 2、GPUの大きな性能向上を確認

 Snapdragon 8 Gen 2に関してはコンシューマ向けなので、高性能コアがすべて64bitでも特に不都合はないと考えられるが、Qualcommはそうしたコンシューマ向けのSoCを将来的に組込向け(たとえば自動車やIoTなど)に横展開するのが通例であるため、こうした構成になっていると考えられる。

 その意味で、そうした戦略をとっているQualcommなどにとっては、2023年の末に発表されると予想される来年向けの「Snapdragon Gen 3」(?)でどのようなデザイン構成を取るのかは注目したいところだ。

レンダリング時の手法を見直してメモリ帯域への圧迫を改善するDVSなど第5世代GPUアーキテクチャを採用

Immortalis-G720では第5世代のGPUアーキテクチャを採用

 TCS23のもう1つの大きな目玉は新しいアーキテクチャを採用したGPUとなるImmortalis-G720だ。昨年Armが発表したImmortalis-G715、一昨年(2021年)のMali-G710は、Armが「Valhall」(バルホール)という開発コードネームで呼ばれていた同社の第4世代GPUアーキテクチャがベースになっていた。

 Valhallアーキテクチャは、2019年に発表されたMali-G77で導入されたタイルベースのGPUアーキテクチャで、画面のピクセルを一定規模のタイルに分割してそれぞれのタイルをレンダリングしていくタイプのGPUになる。こうしたタイルベースのレンダリングは、モバイルGPUでは一般的に利用されている手法で、以前はやはりモバイル向けGPUでは主流だったPowerVRのGPU(AppleのAシリーズでかつて採用されていた、現在はApple自社製GPUに切り替えられている)などでも採用されていたものだ。

Immortalis-G715ではValhall(第4世代GPUアーキテクチャ)を採用していたが、Immortalis-G720からは第5世代に

 今回Armが発表したImmortalis-G720は、そのValhallの後継となる第5世代GPUアーキテクチャを採用している(なお、Armによればこの世代ではなぜかアーキテクチャの開発コードネームは公開しないことにとのことだ、このため以下第5世代GPUアーキテクチャとだけ呼ぶことにする)。第5世代GPUアーキテクチャの最大の特徴はDVS(Deferred Vertex Shading)と呼ばれる、メモリ帯域への負荷を減らす手法が採用されていることにある。

 タイルベースアーキテクチャのGPUでは、一般的にバーテックスシェーディングと呼ばれるレンダリングする前に各頂点の頂点座標を演算し、その後で色を塗りつぶしていくフラグメンテーションという2段階で処理が行なわれる。

 このため、バーテックスシェーディングの段階でメモリからデータを出し入れし、フラグメンテーションでもメモリの出し入れが発生する。つまり、2度メモリへアクセスが行なわれるため、それがメモリ帯域を圧迫することになり、性能低下の発生、そしてメモリへのアクセスが頻繁に発生することで消費電力も増えることになる。

VDSの仕組みを採用している

 そこで、VDSではDeferred(遅延)という言葉に象徴されるように、バーテックスシェーディングの処理をフラグメンテーションが行なわれる段階まで遅らせる。それにより、メモリへのアクセスは1回になり、メモリアクセスの効率が改善する。VDSによりメモリ帯域への圧迫は減少し、GPUの性能も、そして消費電力も減らせる。

 Armによれば、このVDSにより「Elven Ruins」で41%、「Genshin Impact」で33%、Fortniteで26%のメモリ帯域削減効果があるという。また、CADのようなアプリケーションでも有効で37%の削減効果があるとArmは説明している。

 Immortalis-G720はGPUの演算器は10コアないしはそれ以上の構成が可能になっており、顧客の性能ニーズに合わせた実装が可能になる。同時に発表されたMali-G720は6~9コア、Mali-G620は5コアないしはそれ以下の構成が可能で、GPUの性能がImmortalis-G720ほどは必要ではない場合にはそちらを選択することが可能だ。

Immortalis-G720、Mali-G720、Mali-620という三つのモデルが用意される

 ArmはImmortalis-G720、Mali-G720/620はいずれも従来世代と比較して電力効率が15%以上改善されており、かつメモリ帯域への負荷が40%削減され、ピーク性能では15%向上していると説明している。

最大14コア/32MB L3キャッシュという構成も可能になり、デスクトップPC向けCPU並の構成を実現

DSU-120

 ArmアーキテクチャのCPUは「クラスタ」という考え方により構成されるのが一般的で、かつてはbig.LITTLE、現在はDynamIQと呼ばれる複数の種類のCPUにより1つのクラスタが構成されるようになっている。TCS23で言えば、シングルスレッドの性能を重視したプライムコアがCortex-X4、性能と電力のバランスをとった高性能コアがCortex-A720、電力効率重視の高効率コアがCortex-A520という3種類のCPUコアが用意されているのは説明した通りだ。

DSU-120を利用すると最大14コアCPUに対応可能で、Cortex-X4が10コア、Cortex-A720を4コア、そして32MBのL3キャッシュを実装するデスクトップPC級のArmプロセッサを構築可能に

 そうしたクラスタを構成するためのコントローラをArmはDSU(DynamIQ Shared Uinit)と呼んでおり、TCS22まではDSU-110が提供されており、最大で10コア構成までが可能になっていた。

 しかし、今回のTCS23ではその改良版となるDSU-120が導入される。このDSU-120では最大で14コアまでの構成が可能になっており、Cortex-X4を10コア、Cortex-A720を4コアで、合計14コアでL3キャッシュが32MBになるArm版Windows(WoA:Windows on Arm)向けの実装などが可能になるという(もちろん消費電力を無視すれば、それをスマートフォン用として投入することも不可能ではない)。それだけのスペックであれば、IntelやAMDのデスクトップPC向けのCPUに匹敵するような性能を実現する可能性が出てくると言える。

 ただし、Arm版Windows向けにSoCを投入している唯一のベンダーであるQualcomm(MicrosoftブランドのSQ3も同社の設計・製造)は次世代のPC向けSoCに「Oryon」(オライオン)の開発コードネームで知られる自社設計のArm CPUを搭載する計画を明らかにしている。

関連記事

新CPU「Oryon」で、Snapdragon搭載Windowsデバイスの普及に向けて2024年は転換点に

 このため、そうしたCortex-X4 10コア+Cortex-A720 4コアというArm版Windows向けSoCを設計するベンダーは今のところないのが現状で、MicrosoftがMediaTekなどほかのArm SoCベンダーとの協業を明らかにするか、あるいは自社設計のSQシリーズをQualcommベースからArm IPベースにでも変更しない限りは市場に登場するのは難しいと考えられる。そのため、そうしたハイエンド向け製品は、MediaTekが大きな市場シェアを持つChromebook向けとして採用される可能性が高いのではないだろうか。

来年のプライムコアはBlackhawkに、TCS23を搭載したスマートフォン用SoCは今年末に登場か?

Armのロードマップ

 Armは来年のTCS24の計画に関しても説明している。CPUに関してはプライムコアがBlackhawk(ブラックホーク)、高性能コアがChaberton(シャバートン)、高効率コアがHayes(ヘイズ)に、GPUはKrake(クラック)と開発コードネームで呼ばれる製品に進化する計画だ。
TSMCのN3E(3nmプロセスノード)に最適化済み、テストチップも既にテスト生産済み

 Armによれば、既にこうしたTCS23は同社の顧客である半導体ベンダーに対して情報を公開済みで、TCS23の設計データを利用した製品を設計することが可能になっているという。また、Cortex-X4のテストチップは、TSMCのN3E(3nmプロセスノード)でテスト製造が行なわれており、TSMCの3nmノードへの最適化なども既に済んでいるとArmでは説明している。

 昨年のTCS22が、いずれも11月に発表されたQualcommのSnapdragon 8 Gen 2、MediaTekのDimensity 9200に採用したことを考えれば、本年のTCS23を採用した製品もそうした年末のタイミングに発表される可能性が高いと言える。 』

【インテル・トリニティの生涯】ロバート・ノイス:ノーベル賞を「2度も」獲り損なった男

【インテル・トリニティの生涯】ロバート・ノイス:ノーベル賞を「2度も」獲り損なった男
https://pc.watch.impress.co.jp/docs/column/semicon/1496846.html

『インテルの創業と発展に寄与した三位一体(トリニティ)

 「インテル・トリニティ(Intel Trinity)」とは、インテル(Intel)の共同創業者であるロバート・ノイス(Robert Noyce)氏とゴードン・ムーア(Gordon Moore)氏、それからインテルの社員第1号であるアンドリュー・グローブ(Andrew Grove)氏をまとめた呼称だ。インテルの創業と成長を一体となって支えた3名(三位一体)を意味する。

 この呼称は、シリコンバレーで長年にわたって新聞記者をつとめたマイケル・マローン(Michael Malone)氏の著作「The Intel Trinity: How Robert Noyce, Gordon Moore, and Andy Grove Built the World’s Most Important Company」(Harper Business、2014年7月発行)により、米国では広く知られるようになった。邦訳書籍は「インテル 世界で最も重要な会社の産業史」(文藝春秋、2015年発行)である。邦訳タイトルには「インテル・トリニティ」が入っていない。このためか、日本における「インテル・トリニティ」の知名度はあまり高くない。

 本コラムの【インテル・トリニティの生涯】では、トリニティで最後の1人となったゴードン・ムーア氏が2023年3月24日に逝去した機会を捉え、トリニティの生涯を紹介する。本来であれば誕生年月順から言ってロバート・ノイス氏を始めに紹介すべきなのだが、逝去したばかりで読者の記憶に新しいであろうムーア氏を先に紹介した。

関連記事

【福田昭のセミコン業界最前線】【インテル・トリニティの生涯】ゴードン・ムーア:インテルを最も長く愛し続けた男

「インテル・トリニティ」を構成するノイス氏、ムーア氏、グローブ氏の生涯(概略、文中敬称略)。公表資料から筆者がまとめたもの

日本語版がないノイス氏の伝記

 今回はムーア氏とともにインテルを創業したロバート・ノイス氏の経歴を述べる。ノイス氏の伝記として最も優れているとされるのは、シリコンバレーを専門とする歴史学者のレスリー・バーリン(Leslie Berlin)氏が著した「The Man Behind the Microchip: Robert Noyce and the Invention of Silicon Valley」(Oxford University Press、2005年6月10日初版発行)だろう。440ページというかなりの大著である。

 インテルのWebサイトでノイス氏を記念するページを閲覧すると、ノイス氏のバイオグラフィ(伝記)として同書へのリンク(厳密にはバーリン氏のWebサイトへのリンク)が張られている。インテルが公式に認めた伝記本ともいえる存在だ。なお、筆者が調べた限りでは、邦訳本(日本語版書籍)は出版されていない。

ロバート・ノイス氏の伝記へのリンク部分。インテルのWebサイトに置かれたノイス氏を記念するページから抜粋

包括的なキルビーの発明、製造技術に特化したホーニーとノイスの発明

 ロバート・ノイス氏(以降は一部を除いて敬称略)の経歴で日本でも知られているのは、フェアチャイルド半導体の共同創業者、インテルの共同創業者、日米半導体貿易摩擦における対日攻撃の急先鋒、モノリシック集積回路の発明者といったところだろうか。バーリン氏の著作「The Man Behind the Microchip: Robert Noyce and the Invention of Silicon Valley」を閲覧すると上記のほか、いくつかの興味深い事実が浮かび上がる。

 最も興味深かったのは、ノイスがノーベル物理学賞を2回も獲り損なったというエピソードだ。2回の中で1回は、集積回路(IC)の発明である。このことは、半導体の研究開発コミュニティではよく知られている。

 そもそも半導体コミュニティでは「集積回路の発明者」として、テキサス・インスツルメンツ(TI)のジャック・キルビー(Jack Kilby)氏、それからフェアチャイルド半導体のノイスとジーン・ホーニー(Jean Hoerni)氏の3名を挙げることが少なくない。

 キルビーは1958年7月に、半導体基板にトランジスタやダイオード、抵抗素子などをまとめて搭載するという「集積回路の概念」を着想した。ホーニーは1957年12月にシリコン酸化膜でシリコンのトランジスタを保護するプレーナ型プロセスを考案した。ノイスはホーニーの発明を発展させ、シリコンのプレーナ型プロセスを回路素子間の相互接続(導体配線)に拡張した、モノリシック集積回路を1959年1月に発明した。キルビーの特許は1959年2月、ホーニーの特許は1959年5月(2件)、ノイスの特許は1959年7月に出願されている。
キルビーの特許「Miniaturized Electronic Circuits」(特許番号3138743)に描かれた実施例(マルチバイブレータ回路)の図面。図面で配線は空中の金(Au)線となっている(試作したICと類似している)が、考え方としては半導体基板と配線は一体化させる。図面の出所:1986年11月27日付け特許出願公告「特公昭61-55256」の第1図と第2図(いずれも米国特許と同じ図面)

ホーニーの特許「Method of Manufacturing Semiconductor Devices」(特許番号3025589)および「Semiconductor Device」(特許番号3064167)に描かれた図面の例(いずれの特許も同じ図面を使用)。シリコン酸化膜をマスクと保護膜に利用する

ノイスの特許「Semiconductor Device-and-Lead Structure」(特許番号2981877)に描かれた図面の例。上が平面図、下が断面図。左側のpn接合ダイオードと右側のnpnトランジスタを配線(30番および31番のリード(Lead)で結ぶ

 キルビーの発明は最も包括的であり、「半導体集積回路の概念」に関するアイデアだった。請求範囲が広く、米国、日本、欧州を問わずに半導体メーカーにとってはかなり厄介な存在だった。このため手続きに時間がかかったとみられる。3名の中では特許の成立が最も遅く、1964年6月になっている(特許番号は3138743)。

 逆にノイスの特許は最も早く、キルビーの3年ほど前、1961年4月に成立した(特許番号は2981877)。1959年当時はトランジスタ全盛時代であり、集積回路の製品がまだ登場していなかったことが、特許の成立を早めたとみられる。プレーナ型トランジスタとダイオードの製造に関わるホーニーの特許2件はノイスよりも1年ほど遅く、1962年3月(特許番号は3025589)と1962年11月(特許番号は3064167)に成立した。

 ホーニーのプレーナ型プロセスとノイスのモノリシック集積回路プロセスはその後、シリコン集積回路とトランジスタ(バイポーラおよびMOS)、ダイオードの標準的な製造技術となった。特にMOS FETとその集積回路(MOS IC)は、ホーニーとノイスの発明によって実用化の道筋が開けたと言える。半導体産業の発展に与えた影響は、非常に大きい。

ノーベル賞の対象とは見なされなかった「集積回路」の発明

 ただし半導体の研究開発コミュニティでは、集積回路の発明はノーベル賞の対象とはなりにくいとの見方が少なくなかった。集積回路の考案は学問的な業績ではなく、工業的な業績とみなされたからだ。固体物理学における偉大な発見であるトランジスタ(1956年にノーベル物理学賞を受賞)とは、発明の性格が大きく異なる。

 たとえばゴードン・ムーアは1994年に、以下のように述べている。「トランジスタを発明したショックレー博士はノーベル賞を受賞したが、キルビー氏やノイス氏は受賞していない。ホーニー氏にいたってはきちんと評価されたとも言えない。その理由は2つあると思う。トランジスタは基礎的な物理研究と密接に関わっていた。ICはそれよりも技術問題だった。もう1つは少人数を特定して功績を断定することがより難しかった。キルビー氏、ノイス氏、ホーニー氏の3氏というのも1つの可能性なのだろうが、この点について明確な提案は残念ながらなかった」(玉置直司、「インテルとともに―ゴードン・ムーア 私の半導体人生―」、1995年6月発行、p.61)。

遅すぎた「集積回路」のノーベル賞授与決定

 ところが2000年10月10日、スウェーデン王立科学アカデミーは同年のノーベル物理学賞を、キルビーを含めた3名の研究者に授与すると発表した。授与の理由は、現代情報技術(Modern Information Technology)の構築に寄与したこと。2名は化合物半導体のレーザーと高速トランジスタの基本構造「ヘテロ接合」の開発に対してノーベル賞を与えられ、この2名が賞金の半分を折半するとした。賞金の残り半分は「集積回路の発明に関するキルビー氏の寄与」に対してキルビーに授与された。

2000年10月10日にスウェーデン王立科学アカデミーが発表した、2000年のノーベル物理学賞の授与に関するリリース(Webサイトのページを一部抜粋したもの)

 ノイスは、集積回路の発明に対してノーベル賞を授与されなかった。理由は2000年の時点で彼は鬼録に登っていたからだ。ノイスはこの10年前、すなわち1990年に亡くなっていた(ノーベル賞は生者のみに授与される)。ホーニーも1997年に亡くなっており、受賞資格を失っていた。なお同アカデミーが2000年のノーベル物理学賞の対象業績を解説したWebページは、ノイスの業績についてもふれている。

江崎玲於奈氏らよりも早期にトンネルダイオードを着想

 ロバート・ノイスが逃したノーベル賞クラスの発明はもう1つある。それは「負性抵抗ダイオード(トンネルダイオード)」を理論的に着想したことだ。「負性抵抗」とは、電圧を上げると電流が減少する状態を意味する。1950年代は量子効果の1つである「トンネル効果」が半導体素子で生じると固体物理学の世界で予想されてはいたものの、実証には至らなかった時期である。pn接合ダイオードにおけるトンネル効果の発見は、半導体における量子効果の実証を意味した。

 読者の多くがご存知のように、トンネルダイオードを発明したのはソニー(当時は東京通信工業)の江崎玲於奈氏らのグループである。以下の記述はソニーのWebサイトに掲載されたトンネルダイオード(別名:エサキダイオード)の発見にまつわるエピソードを参考にした。

 1957年夏にソニーはゲルマニウム(Ge)の高周波トランジスタを開発する過程で生じたトラブル(ボンディングによるpn接合破壊)に対処するため、不純物濃度を変えたpn接合の特性を調べていた。このときに江崎らのチームは偶然、高濃度にリン(P)をドープしたpn接合の電流電圧特性が異常なふるまいを示すという現象に遭遇した。逆方向バイアスでは電圧の上昇とともに電流が単調に増加する。順方向では電圧の上昇とともに電流がゆるやかに増加し、ある電圧から電流が減少する。さらに電圧を上げると電流は再び増加していく。

 トラブルはトランジスタのリン濃度を調節することで解決された。江崎は高濃度pn接合ダイオードで生じた負性抵抗をトンネル効果だと推測し、1957年10月に日本物理学会年会で発表した。残念ながら、反響はあまりなかったという。

江崎らの研究チームが1957年10月の日本物理学会年会で発表したpn接合ダイオードの負性抵抗に関する講演の予稿。出所:日本物理学会年会講演予稿集

ショックレーに潰されたノイスのトンネルダイオード

 ソニーの江崎らがpn接合ダイオードのトンネル効果を発見していたのとほぼ同時期に、ノイスはpn接合ダイオードの不純物濃度を極端に高めるとトンネル効果が生じることを理論的に発見した。1956年8月14日のことであり、江崎らの発見よりも1年ほど早い。当時、ノイスはショックレー半導体研究所につとめていた。ノイスによる発見の経緯を、前述のレスリー・バーリンとデューク大学名誉教授のクレイグ・ケーシー(H. Craig Casey Jr.)は共同で、「IEEE Spectrum」誌の2005年5月号に寄稿した(「Robert Noyce and the Tunnel Diode」、May 2005、IEEE Spectrum、pp.49-53)。

 ノイスは、通常の数千倍もの高い不純物濃度を有するpn接合ダイオードでは、順方向の電流電圧特性が以下のようになると予想した。

 順方向の印加電圧をゼロから少しずつ上げていくとしよう。印加電圧がわずかなときには、通常のpn接合ダイオードよりもやや高い電流が流れて増加し始める。このとき伝導電子はpn接合間の極めて薄い空乏層を「トンネル効果」によって通り抜ける。

 印加電圧をもう少し上げるとpn接合のエネルギー帯で空乏層が厚くなり、伝導電流(トンネル電流)が減少する。すなわち負性抵抗が生じる。印加電圧をさらに上げると空乏層の傾斜がゆるやかになり、通常のpn接合と同じように電流が増えていく。

ノイスが1956年8月14日にトンネルダイオードのアイデアを著した研究ノート。右上に日付がある。右下に電流電圧特性の予想曲線(順方向にトンネル電流と負性抵抗が生じる)が描かれている。出所:Computer History Museum, Department of Special Collections, Stanford University

 このエキサイティングなアイデアをノイスはまず同僚のムーアに話し、次に上司のショックレー(William Bradford Shockley Jr.)に報告した。若きノイスは、ショックレーがこのアイデアに感激してくれるものと期待した。

 ところがショックレーは、ノイスのアイデアに何の関心も示さず、このアイデアに基づく研究(ダイオードの試作や理論の検証など)への道を閉ざしてしまった。ショックレーは競争心が異常に強く、自分の部下が独自のアイデアで研究を進めることを許さない性格だった。失意に打ちのめされたノイスは、ショックレーの意図に沿った別テーマの研究に取り組んだ。

ショックレーが「エサキダイオード」を称賛した不可解

 失意のノイスをさらに打ちのめす出来事が、1958年1月に起こる。著名な固体物理の論文誌「Physical Review」の1958年1月15日号に、「New Phenomenon in Germanium p-n Junctions」と題する江崎の論文が掲載された。試作したGeダイオードの順方向電流電圧特性で、トンネル効果による負性抵抗を観測したという報告だった。

 ノイスはこのとき、ムーアらとともにショックレー半導体を退社してフェアチャイルド半導体を共同で創業しており、同社で忙しく働いていた。ノイスは江崎論文のコピーをムーアに見せ、ノイスと江崎のトンネルダイオードを比較した。両者の構造と特性は非常によく似ていた。大きく違うのは、ノイスはダイオードを試作しなかったことだ。江崎はダイオードを試作して室温(300K)と低温(200K)で電流電圧特性を測定した。低温ではトンネル効果がより顕著に現れた。

 江崎は、続く1958年6月にベルギーのブリュッセルで開かれた国際固体物理学会(International Conference on Solid State Physics)で、高濃度に不純物をドープしたGeトンネルダイオードを発表することにした。ここで不可解なことが起こった。学会の冒頭に実施されたキーノートアドレスで、すでに固体物理学の権威となっていたショックレーが「東京から来た江崎がトンネルダイオードを発表する」と述べ、江崎の研究成果を高く評価したのだ。これには発表者の江崎本人が非常に驚いた。ショックレーが事前にアピールしたこともあり、江崎の発表には多くの聴衆が集まった。

 ノイスのトンネルダイオード「ノイスダイオード」をショックレーはすでに知っていた。「エサキダイオード」がノイスダイオードと本質的に同じものであることも理解していたはずだ。ショックレーは「ノイスダイオード」を無視し、「エサキダイオード」を称賛したのはなぜなのだろうか。

 先に紹介した「Robert Noyce and the Tunnel Diode」は、いくつかの可能性を挙げている。まず、ショックレーは意見や方針などを頻繁に変える傾向があったこと。ショックレーの部下の1人は、彼は会社をいつも「揺さぶっていた」とコメントした。別の部下は、ショックレーはトンネルダイオードに対する考えを変えたのではないかと述べた。また、1957年8月にショックレーを裏切った8名(ノイスを含めたフェアチャイルド半導体の共同創業者)に対する恨みが1958年6月の時点では癒えてなかったからだとする意見もある。いずれにせよ、今となっては本当の理由は分からない。

 ベルギーでの発表から15年後の1973年10月23日、スウェーデン王立アカデミーは1973年のノーベル物理学賞を「固体中のトンネル効果の発見」に関する業績で江崎玲於奈を含む3名に授与すると発表した。

1973年10月23日にスウェーデン王立科学アカデミーが発表した、2000年のノーベル物理学賞の授与に関するリリース(Webサイトのページを一部抜粋したもの)

米国半導体産業の復活に力を尽くす途上で急逝

 トンネルダイオードにノーベル物理学賞が授与されたとき、ノイスとムーアが共同で1968年7月に創業したインテルは、創立6年目に入っていた。インテルの1978年版年次報告書によると、1973年の売上高は6,620万ドル、従業員数は約2,500名(1973年末時点)、続く1974年の売上高は1億3,450万ドル、従業員数は約3,100名(1974年末時点)である。急激な成長ぶりがうかがえる。ノイスに過去を振り返っているヒマはなかっただろう。

ロバート・ノイスと2つのノーベル物理学賞。赤い文字はトンネルダイオード、青い文字は集積回路に関連する出来事

ロバート・ノイスの年譜

 ノイスの活動は1970年代半ば以降、ベンチャー企業の育成や米国半導体産業の保護・強化へと軸足を移していく。1975年にインテルの社長を辞して取締役会会長となり、1979年には取締役会副会長へとステップダウンする。この間、日本半導体メーカーのキャッチアップと対米販売攻勢に注意を払うようになる。そして業界団体である「米国半導体工業会(SIA)」の設立(1977年に発足)を主導する。

 1980年代には日米半導体貿易摩擦が起こり、米国半導体産業における製造技術の強化を真剣に考えるようになる。1988年には、半導体製造の要素技術開発を目的とする官民合同企業セマテック(SEMATECH)のCEOとなり、現役の経営者に復帰する。そして初めて、米国南部のテキサス州オースチンへと自宅を移す。セマテックの本社がオースチンにあったからだ。それまでノイスはシリコンバレーで暮らしていた。

 ノイスはヘビースモーカーだったが、健康診断では何の異常もなかった。しごく健康であり、1990年6月3日には注文していた自家用飛行機を受け取る予定だった。しかし朝に自宅のプールで泳いだあと、体調不良を訴え、病院に搬送されるも不帰の人となってしまう。死因は心不全だった。半導体関係者はノイスの急逝に驚き、悲しみ、落胆した。

 そして「インテル・トリニティ」のシリーズでは最後に、アンドリュー・グローブ氏の生涯について紹介する予定だ。ご期待されたし。 』

ムーアの法則

ムーアの法則
https://ja.wikipedia.org/wiki/%E3%83%A0%E3%83%BC%E3%82%A2%E3%81%AE%E6%B3%95%E5%89%87

 ※ 今日は、こんな所で…。

 ※ オレが初めて買った「コンピューター」は、NEC製のPC-98で、確か、「80286」搭載だったと思ったな…。

 ※ まだ、「フロッピー」でOS読み込むタイプで、起動すると「ツンツン、ツーン…」とかいう音がしたもんだよ…。

『出典: フリー百科事典『ウィキペディア(Wikipedia)』
Blue question mark.svg

原文と比べた結果、この記事には多数の(または内容の大部分に影響ある)誤訳があることが判明しています。情報の利用には注意してください。正確な表現に改訳できる方を求めています。(2016年5月)

集積回路に実装されたトランジスタ数の増大(片対数グラフ)

ムーアの法則(ムーアのほうそく、英: Moore’s law)とは、大規模集積回路(LSI IC)の製造・生産における長期傾向について論じた1つの指標であり、経験則に類する将来予測である。発表当時フェアチャイルドセミコンダクターに所属しており後に米インテル社の創業者のひとりとなるゴードン・ムーアが1965年に自らの論文上に示したのが最初であり、その後、関連産業界を中心に広まった。

彼は1965年に、集積回路あたりの部品数が毎年2倍になると予測し、この成長率は少なくともあと10年は続くと予測した。1975年には、次の10年を見据えて、2年ごとに2倍になるという予測に修正した。彼の予測は1975年以降も維持され、それ以来「法則」として知られるようになった。

初出

ムーアの元々の文章は以下である。

(原文) The complexity for minimum component costs has increased at a rate of roughly a factor of two per year (see graph on next page). Certainly over the short term this rate can be expected to continue, if not to increase. Over the longer term, the rate of increase is a bit more uncertain, although there is no reason to believe it will not remain nearly constant for at least 10 years. That means by 1975, the number of components per integrated circuit for minimum cost will be 65,000.

I believe that such a large circuit can be built on a single wafer.

"Cramming more components onto integrated circuits", Electronics Magazine 19 April 1965[1]

(訳)部品あたりのコストが最小になるような複雑さは、毎年およそ2倍の割合で増大してきた((訳注)元文献ではここでグラフを参照している)。短期的には、この増加率が上昇しないまでも、現状を維持することは確実である。より長期的には、増加率はやや不確実であるとはいえ、少なくとも今後10年間ほぼ一定の率を保てないと信ずべき理由は無い。すなわち、1975年までには、最小コストで得られる集積回路の部品数は65,000に達するであろう。

私は、それほどにも大規模な回路が1個のウェハー上に構築できるようになると信じている。

チップの複雑さはトランジスタの個数に比例すると仮定し、それらが何に使われているかを無視するならば、この法則は今日まで充分時の試練に耐えてきたと言える。

しかし、トランジスタ当たりの複雑さは、RAMキャッシュでは実行ユニットほど高くないという議論もあり得る。

こんにちのマイクロプロセッサの祖である4004も、DRAMの祖である1103(en:Intel 1103)も1970年前後に登場したのであり、それらより5年も前に述べられたことでもある(また「1個のウェハー」についても、こんにちの直径300mmのウェハーへの wafer-scale integration のようなものを想定してはいないだろう)。

そういった観点からすれば、ムーアの法則の妥当性は、その定式化のしかたによっては疑問符がつくものとなる。ただし、その成長が指数的であるという点に異論は無いと推測される。

なお、1枚のチップ(a chip)に集積される部品数は、プロセスの微細化とチップ面積の拡大の2つの要素の掛け合わせで増加する。

また「ムーアの法則」と名づけたのはムーア自身ではなく、その著書 Introduction to VLSI Systems(『超LSIシステム入門』)などで知られるカーバー・ミードによる[2]。

ムーアは今日の機械式マウスの共同発明者であるダグラス・エンゲルバートから、1960年の講義にて集積回路のサイズ縮小の見通しについて議論したのを聞いた可能性がある[3]。

公式

ムーアの法則の公式は、集積回路上のトランジスタ数は「2年ごとに倍になる」というものである。

これを式で表現すると、n年後の倍率 p は、

p = 2 n / 2 {\displaystyle p=2^{n/2}}

となる。

したがって、2年後には2倍、5年後には5.66倍、7年後には11.3倍、10年後には32倍、15年後には181.0倍、20年後には1024倍ということになる。

さらには、1チップあたりのコストに対するコンピューティングパワーをどんどん増加させ続けるものがムーアの法則だとされ、ハードディスクや果てはコンピュータ以外の技術でも指数的な成長をしていればなんであれどんどんムーアの法則と呼ぶような傾向さえ現れたが、それらについてはこれ以上触れない。

定量的にはともかく、コンピュータの性能という視点からは「トランジスタ数=ゲートやラッチ数の増加により、より複雑なプロセッサが実装できる」「デナード則により、微細化=高速省電力化である」という、ムーアの法則から間接的に発生する複数の要素が関与して、ひたすらに性能向上が進んだ、と定性的には言うことができるのは確かである。

クーメイはこれを定量的に捉え直す試みとして、ムーアの法則による微細化にともなう、デナード則による速度向上と省電力化の定式化と、過去のコンピュータの消費エネルギーあたりの計算量の再調査による長期の傾向から、法則性を取り出し「クーメイの法則」とした。クーメイによれば21世紀に入った後ではその値の成長は鈍化している。

鈍化の原因としては、ゲートやラッチの数をより増やしても、それに比例するようにはコンピュータの性能を上げられなくなったこと(ポラックの法則)、また集積回路技術の微細化による電子的な特性ではリーク電流による悪影響のほうが強くなって、省電力性能が上がりにくくなったこと、が言われている。実際に商品のトレンドとしても、2020年現在では、クロック周波数やシングルスレッド性能は伸び悩み、その一方でコア数の増加は進んでいる。

産業牽引力

集積回路製造の業界用語で、それに関係する生産プロセスに投入される技術を指すプロセステクノロジ(process technologie)という用語がある。以下では、ムーアの法則の本来の適用範囲についてはその用語「プロセステクノロジ」を、逸脱した拡大解釈によるその他の技術などへの外挿の場合は「技術」などの用語を使う。

ムーアの法則は最初は半導体産業でのプロセステクノロジの観察と予測によって生まれたが、今日ではより広く受け入れられ、先進的な工業製品一般における性能向上の1つの予測値や目標値として用いられることがある。

コンピュータ関係の製品や部品を製造する企業にとって、ムーアの法則が暗示する将来予測は無視できない。

例えばCPUやハードディスクのような製品を新規に設計・生産する場合には、最初の出荷まで2年から5年ほどの期間を要するため、こういったメーカーは、投資と収益に関する大きな経済的リスクを負うと共に、数年先の市場を予測した製品開発を行わねばならない。
製品の陳腐化が早いいくつかの産業では、先行者利益が大きい分だけ市場参入の遅れは大きな損失を負う可能性があるが、逆に、他社が提供できない新規性があり高性能な製品であっても生産コストが高く販売価格が市場に受け入れられなければ、特殊な用途向きの小さな市場にしか得られない可能性があるため、将来予測は重要である。

過去の結果から将来を演繹する将来予測は、「自己成就」などと呼ばれる、それを信じる参加者が多いことでより信頼度の高いものとなるという性質があり、「ムーアの法則」はそのような特性も持っている。

「2年ごとに倍になる」という表現は、ムーアの法則が近年の技術の表象的な進み具合をほのめかしている。より短い時間軸で表現されると、ムーアの法則は平均して1週間に0.6%以上半導体産業全体のパフォーマンスを向上させていると言い換えることができる。

法則の限界

2010年代後半、半導体の開発ペースが鈍化し始め、ムーアの法則のペースが維持できなくなるとの説が広まりだした。2017年5月、NVIDIAのJensen Huangは大手半導体企業のCEOとして初めて、「ムーアの法則は終わった」ことに言及している[4]。

インテル チック・タックは、200x年代なかばにインテルが打ち出した戦略で、パターンの大幅な変更無しに新しいプロセステクノロジによって縮小して高性能化した世代のチップと、新しくマイクロアーキテクチャを設計してその前の世代と同じプロセステクノロジで製造するチップとを、毎年交互にリリースする、というもので、ムーアの法則によって2年に1回のペースで新しいプロセステクノロジへの更新があることを前提にしていた。

2010年代後半に、この戦略が崩れたことも、現実がムーアの法則通りではなくなっていることのあらわれとみなされている。

将来のトレンド
Ambox outdated serious.svg

この記事は更新が必要とされています。
この記事には古い情報が掲載されています。編集の際に新しい情報を記事に反映させてください。反映後、このタグは除去してください。(2022年6月)

主要なCPUにおけるトランジスター数の推移

各々初出荷時点での数

(以下の記述は執筆時点がだいぶ古いものも含まれている)

2006年第一四半期において、PCのプロセッサは90nmで製造されており、65nmのチップはIntel(Pentium DおよびIntel Core)からのみ出荷されていた。10年前では、チップは500nmで製造されていた。各企業は45nmや30nm、さらにそれ以下の細かさのチップを製造するために起こる複雑な課題を解決するため、ナノテクノロジーを用いて開発を行っている。これらのプロセステクノロジに因って、半導体産業が直面するムーアの法則の限界の到達が延伸することになるだろう(その後、2010年32nmでトランジスタ数約4億個、2015年には14nmを実現)。

2001年頃のコンピュータ業界のロードマップは、ムーアの法則はチップ数世代にわたって継続するであろう、と予測していた。そのロードマップでの計算によると、2011年にチップ上のトランジスタ数は2の100乗個にまで増加するだろう、と予測していた、というわけである。半導体産業のロードマップではマイクロプロセッサのトランジスタ数は3年で2倍になるとしているので、それに従うと10年で2の9乗個になる。

この法則に経済的合理性があるのは、トランジスタ1個あたりのコストが劇的に下がることである。例えばCore i5には13億個のトランジスタがあり、7万個のトランジスタで1ペニーである。

2006年初頭、IBMの研究者らは深紫外光 (DUV、193nm) のフォトリソグラフィで、29.9nm幅の回路をプリントするプロセステクノロジを開発したと発表した。当時IBMは、これによってチップ市場は今までのやり方でムーアの法則の予言をこの数年達成し続けることができるだろう、とした。

計算能力を向上させる方法は、単一の命令ストリームを1つの演算部で可能な限り早く処理するだけとは限らず、遅い動作クロックであっても複数の演算部で並列的に処理することでも計算能力を向上できる。

一般に動作クロックの上昇は処理性能に寄与するが、発熱もまた増すために、ある程度まで高速化された演算部では処理性能の向上よりも発熱量の増加が上回り、高集積な回路であれば放熱問題に直面して、動作クロックの高速化は現実的でなくなる[5]。

ムーアの法則を基にして、ヴァーナー・ヴィンジやブルース・スターリング、レイ・カーツワイルのような有識者が技術的特異点を部分的に推定している。

しかしながら、2005年4月13日、ゴードン・ムーア自身が、「ムーアの法則は長くは続かないだろう。なぜなら、トランジスタが原子レベルにまで小さくなり限界に達するからである」とインタビューで述べている。

もっとも、横に並べるならば原子の大きさによる限界があるであろう、というのはムーアでなくてもわかることであって、実際に縦方向に並べる研究がさかんに進められている。
(トランジスタの)サイズに関して、我々は基本的な障壁である原子のサイズに到達するであろう。

しかし、その向こう側に行くにはまだ2, 3世代ある。そして、我々が見ることができるよりもさらに向こう側がある。我々が基本的な限界に到達するまでにはあと10〜20年ある。そのときまでには10億を超えるトランジスタを搭載するより巨大なチップを作ることができるだろう[6]。(2005年の発言)

ムーアの法則を今後も時間軸に沿って維持するには、裏に潜む様々な挑戦なしにはなしえない。

集積回路における主要な挑戦のうちの一つは、ナノスケールのトランジスタを用いることで増加する特性のばらつきとリーク電流である。

ばらつきとリーク電流の結果、予測可能な設計マージンはより厳しく、加えてスイッチングしていないにもかかわらず、かなりの電力を消費してしまう。

リーク電力を削減するように適応的かつ統計的に設計すると、CMOSのサイズを縮小するのには非常に困難である。これらの話題は「Leakage in Nanometer CMOS Technologies」によく取り上げられている。サイズを縮小する際に生じる挑戦には以下のものがある。

・トランジスタ内の寄生抵抗および容量の制御
・電気配線の抵抗および容量の削減
・ON/OFFの挙動を制御するためにゲートを終端できる適切なトランジスタ電気的特性の維持
・線端の粗さによる影響の増加
・ドーピングによる変動
・システムレベルでの電力配送
・電力配送における損失を効果的に制御する熱設計
・システム全体における製造コストを常に引き下げるようなあらゆる挑戦

カーツワイルによる推測

ムーアの法則を、カーツワイルが拡張したもの(収穫加速の法則)。集積回路の登場より以前のトランジスタ、真空管、リレー、電気機械式コンピュータまでさかのぼり、基本的なトレンドがパラダイムシフトによって維持されていることが示されている。

カーツワイルの目算は、ムーアの法則が2019年まで継続することにより、将来たった原子2, 3個分にしかない幅のトランジスタがもたらされるというものである。

もちろん、より高精度なフォトリソグラフィーを用いるやり方によって達成できるが、このことはムーアの法則の終わりを意味するものではないと彼は考えている。

カーツワイルいわく、集積回路におけるムーアの法則は、価格対効果を加速する最初のではなく5番目のパラダイムである。

コンピュータは(単位時間当たりの)処理能力はとっくに何倍にもなってきた。

1890年にアメリカの国勢調査で使用されたタビュレーティングマシンからLorenz暗号を破るためのMax Newmanのリレー式計算機”Robinson”、アイゼンハワーの選挙予想に使われたCBSの真空管式コンピュータUNIVAC I、最初の宇宙旅行に使われたトランジスタ式コンピュータ、集積回路を用いたPCへと[7]。

カーツワイルは、なんらかの新しい技術が現在の集積回路技術を置き換え、ムーアの法則は2020年以降もずっと長く維持されるのではないか、と推測している。

つまり彼は、ムーアの法則に沿った技術の指数関数的な成長は、(ムーアの法則の本来の適用範囲である)プロセステクノロジの発展による集積回路の向上に仮に限界があったとしてもそれを乗り越えて、技術的特異点をもたらすまで、今後も続くであろうと信じているのである。

「収穫加速の法則」の中でカーツワイルは、多くの方法によってムーアの法則の一般的な認識は変更されてきたと述べている。ムーアの法則は技術のすべての形を予測すると共通に(しかしそれは誤っているが)信じられている。

たとえそれが実際には半導体回路に関してのみ適用されるものとしてもである。多くの未来学者は、いまだカーツワイルによって力を与えられたこれらの考えを述べるために、「ムーアの法則」という言葉を用いている。

その他

KraussとStarkmanは彼らの論文である「Universal Limits of Computation」で、宇宙に存在するあらゆるシステムの情報処理容量の合計を厳密に見積もった結果、600年という非常に長い期間をムーアの法則の限界と発表した。

この法則は明らかに克服できないように見える障害にしばしば直面したが、すぐにこれらを乗り越えていった。

ムーアは、自分が実現した以上に今やこの法則が美しいものに見える、と述べている。「ムーアの法則はマーフィーの法則に違反している。すべてのものはどんどんよくなっていくのだ。」[8]

コスト

2015年時点で、最新のプロセステクノロジを用いたチップの設計と実用試験には約1億$かかった(2005年には1600万$だった)。新型チップ製造工場の建設には100億$かかった[9]。

他の関心事

コンピュータ関連業界において、ムーアの法則に従って開発が進むのは容量と速度だけではない。

RAMの速度とハードディスクのシークタイムは最高年2, 3%ずつ改善されている。

RAMとハードディスクの容量はそれらの速度と比べて非常に速く増えているので、それらの容量をうまく使うことはますます重要になっている。

多くの場合、処理時間とスペースは交換できることがわかっているので、素早いアクセスを行うために何かしらの方法で処理前にインデックスをつけてデータを格納しておく方法などである。

コストの点で、より多くのディスクやメモリのスペースが使われる。スペースは時間と比べてより安くなっている。

他方、時々間違えてしまうが、指数関数的なハードウェアの改良は、必ずしもそれと同様な指数関数的なソフトウェアの改良を意味するものではないということである。

ソフトウェア開発者の生産性はハードウェアでの進化と共に指数関数的に確実に増えているというわけではなく、たいていの測定では、ゆっくりとまた断続的に増えていく。

ソフトウェアは時間と共により大きく複雑になっていく。ヴィルトの法則では「ソフトウェアは、ハードウェアが高速化するより急速に低速化する。」とさえ述べている。

さらに、もっとも有名な間違った考えは、メガヘルツ神話として知られる、プロセッサのクロック速度が処理速度を決定する、というものである。

これは実際には、単位時間当たりに処理できる命令数にも依存するので(それぞれの命令の複雑さも同様に依存する)、クロック速度は単に2つの同一の回路同士を比較する時にのみ用いることができる。

もちろん、バス幅や周辺回路の速度のような他の要因も考慮に入れなければならない。

それゆえに、もっとも有名な「コンピュータの速度」の評価は、原理を理解しなければ元々バイアスがかかっている。

これは特にPentiumの時代には真実であった。この時は有名なメーカーが速度の普通の認識として、新製品のクロック速度を宣伝するのに力を入れていた[10]。

たいていのよくある並列化されていないアプリケーションのため、マルチコアCPUのトランジスタ密度は実用的な計算能力に反映して増えているというわけではないことに注意することも重要である。

コンピュータの能力を使用する消費者が負担するコストが落ちているが、ムーアの法則を達成するためのメーカーのコストは逆のトレンドをたどっている。

研究開発や製造、テストのコストはチップの世代が新しくなるごとに着実に増えている。
半導体メーカーの設備にかかるコストも増え続けると思われるので、メーカーはよりたくさんより大きくて利益の出るチップを売らなければならない。(180nmのチップをテープアウトするのにかかるコストは約30万ドルであった。90nmのチップをテープアウトするのにかかるコストは75万ドルを超え、65nmでは100万ドルを超えると思われる。)

近年、アナリストたちは先進的なプロセス(0.13umやそれ以下)で「設計開始」された数が減っているのを目の当たりにしている。

2000年以降の景気の低迷の間これらのことが観察されたが、開発の衰退は、長い間世界市場にいた伝統的な半導体メーカーが、経営的にムーアの法則を維持できなくなっていることの証拠であるかもしれない。

しかし、2005年のインテルの報告書では、経営的に安定させながらシリコンチップをダウンサイジングすることは次の十年可能である、としている[11]。

シリコン以外の材料を使用することが増えるとのインテルの予想は2006年中ごろには確かめられ、2009年までにはトライ・ゲート・トランジスタを使用するつもりであるとしている。

IBMとジョージア工科大学の研究者らは、ヘリウムで極低温まで冷却したシリコン/ゲルマニウムチップを500GHzで動作させ、新しい動作記録速度を作った[12]。

チップは4.5K(摂氏マイナス268.65度)で500GHz以上で動作し[13]、シミュレーションの結果では恐らく1THz(1000GHz)で動作することも可能であるとしている。 』

第4世代インテルXeonスケーラブル・プロセッサーのキモとなる「アクセラレータ」とは何なのか?

第4世代インテルXeonスケーラブル・プロセッサーのキモとなる「アクセラレータ」とは何なのか?
https://pc.watch.impress.co.jp/docs/topic/special/1485918.html

 ※ 今日は、こんな所で…。

『~5Gもクラウドサービスも、社会基盤を広範に支えるインテルCPU

提供:
インテル株式会社

笠原 一輝

2023年3月22日 06:30

先だって発表された第4世代インテルXeonスケーラブル・プロセッサーで、インテルは、リアルワークロード(実際に顧客が実行するアプリケーションの動作)の性能向上、そしてoneAPIなどのオープンな開発環境、さらには電力効率の改善を実現することで、サステナブルなデータセンターの実現を目指すなどのターゲットを掲げている。

 また、そうした特徴を実現するハードウエアを提供することで、顧客となるCSPやエンタープライズといった、従来Xeonスケーラブル・プロセッサーが採用されていた領域だけでなく、近年インテルアーキテクチャの導入が増加している、SDN(Software Defined Network)と呼ばれる仮想化技術を活用した5Gのバックエンド通信機器などにも、普及を目指していく。
インテルのデータセンターソリューションは、リアルワークロード性能、オープンプラットフォーム、サステナブルに要注目
インテル株式会社マーケティング本部本部長の上野晶子氏

 インテル株式会社マーケティング本部本部長の上野晶子氏は、インテルのデータセンタービジネスに関して以下のように語る。「インテルではユーザーが必要とする性能を効率よく実現するため、CPUとアクセラレータをバランスよく実現しており、お客さまのリアルワークロードにおける性能向上を実現する。また、インテルが長年提供してきたソフトウエアの開発環境上にオープンな開発環境として提供しているoneAPIに代表されるような、ベンダーロックインを招かないオープンアーキテクチャ、さらにはアクセラレータや監視機能、制御機能などをフル活用した高い電力効率を実現することでサステナビリティを実現していく」。

 インテルXeonスケーラブル・プロセッサーは、1997年の最初の製品(当時はPentium II Xeonブランド)の出荷から現在に至るまでデータセンターで採用されているCPUとしてトップシェアの製品だ。それだけ多くのユーザーに支持されているのも、リアルワークロードでの性能が支持されているからにほかならない。実際に自社のデータセンターで稼働させると、高性能と消費電力がバランスよく実現される。それがインテルXeonスケーラブル・プロセッサーなのだ。
インテル独自のアプローチ(出典:第4世代インテルXeonスケーラブル・プロセッサー発表、インテル株式会社)

 また、データセンターではシステムで動かすソフトウエアを容易に開発することも重要になる。インテルは各種のソフトウエア開発キットを長年提供してきており、それもデータセンターの顧客に支持される要因の1つになっている。最新の開発キットとなるoneAPIはオープンソースで開発され、インテルアーキテクチャ以外のCPUやGPUにも対応するなど、ハードウェアレベルでもオープンなのが売りになっている。

 そして今、データセンターで最も注目されている要素が電力効率ではないだろうか。ウクライナ危機に端を発したエネルギー危機の中で、データセンターの電力効率を改善し、高い性能を実現しながら消費電力を抑えることに注目が集まっている。データセンターの電力効率を改善して持続可能なクラウドサービスの提供を行なっていきたいクラウドサービスプロバイダー(CSP)やエンタープライズにとって、今の性能を落とさずに電力効率を改善できるソリューションが期待されているのだ。
EMIBなど革新的な製造技術が導入。8ソケットまでの高い柔軟性を実現

 インテルが提供するデータセンター向けCPUとなるインテルXeonスケーラブル・プロセッサーの最新製品として、1月に発表されて投入されたのが、第4世代インテルXeonスケーラブル・プロセッサーだ。
関連記事

【笠原一輝のユビキタス情報局】チップレットになった「第4世代Xeon SP」、性能向上の鍵はAMXと4つのアクセラレータ

 第4世代インテルXeonスケーラブル・プロセッサーは、2021年に発表されて投入された第3世代の後継となる製品で、Sapphire Rapidsの開発コードネームで開発されてきた。第4世代インテルXeonスケーラブル・プロセッサーは、いくつかの点でハードウエアが拡張されており、第3世代インテルXeonスケーラブル・プロセッサーと比較して性能が大きく向上している。

 1つめの大きな特徴は、インテルが開発したEMIB(Embedded Multi-die Interconnect Bridge)と呼ばれる、いわゆるチップレット技術の導入だ。チップレットというのは、簡単に言うとCPUのサブ基板上に複数のダイを実装する実装方式。複数のダイを1つのサブ基板上に搭載し、ソケット1つあたりのCPUコアの数を増やすことができる。

 EMIBでは、ダイとダイの間をシリコンベースの小さなサブ基板で接続することにより、低コストかつ高性能に、複数のダイを実装することが可能になる。第4世代インテルXeonスケーラブル・プロセッサーでは、EMIBを利用して4つのダイを1つのチップに封入できるようにしており、1ソケットで最大60コアという製品を実現している。
第4世代インテルXeonスケーラブル・プロセッサーのハイレベルな特徴(出典:第4世代インテルXeonスケーラブル・プロセッサー発表、インテル株式会社)
インテルのEMIB技術を応用したチップレット技術を採用(出典:第4世代インテルXeonスケーラブル・プロセッサー発表、インテル株式会社)

 また、プラットフォーム面でも高い柔軟性を備えている。この第4世代インテルXeonスケーラブル・プロセッサーでは1ソケット、2ソケット、4ソケット、そして最大8ソケットの構成までサポートできる。そのため、1つのサーバーで最大480コア(60コア×8ソケット)という巨大なCPUコア数を構成することも可能であり、小規模から大規模まで、さまざまなニーズに幅広くこたえられるのも特徴となっている。
第4世代インテルXeonスケーラブル・プロセッサーでは新しいCPUソケット(LGA-4677)が投入され、1ソケットから8ソケットまでスケーラブルに対応する
アクセラレータの機能を統合することでCPUの処理を解放し、かつ2.9倍の電力効率を実現する

 第4世代インテルXeonスケーラブル・プロセッサーの最大の特徴は、アクセラレータと呼ばれる特定の処理を高速化する演算器を複数内蔵していることにある。

 CPUは汎用プロセッサで、ソフトウエアと組み合わせることで、どのような処理も行なえる柔軟性が特徴と言える。そうした柔軟性を持っているメリットは、新しいイノベーションをいち早く実現できるというところにあり、IT業界が短期間に急速に発展してきた最大の理由と言える。

 そうした汎用プロセッサの性能が日々向上し、その向上した性能を活用するようなソフトウエアが登場する――、それがCPUとソフトウエア発展の歴史と言える。ただ、その反面、汎用プロセッサの弱点と言えるのが消費電力で、高い汎用性を実現するためのトレードオフとして消費電力が増大してきたというのがこれまでの歴史だ。

 そうした中で、消費電力を下げる取り組みというのはこれまでも行なわれてきたが、今再び注目を集めている手法がある。それが今回の第4世代インテルXeonスケーラブル・プロセッサーに搭載されているアクセラレータだ。

 アクセラレータとは、簡単に言えば、汎用プロセッサで行なわれている処理のうち、特定の処理だけを行なう固定処理を行なうプロセッサとなる。汎用プロセッサと違い、ある特定の処理だけに特化したハードウエアが構成されるため、無駄を排除することが可能になり、同じ処理をさせても圧倒的に低い消費電力で同じ処理を行なえる。

 つまり、CPUを活用して同じような処理をずっとやらせているような処理は、アクセラレータとして実装すると、その処理をCPUからオフロードしてCPUの処理能力を他の処理に使え、システム全体の性能を引き上げられ、同じ処理をさせた場合アクセラレータなしの場合に比較して電力効率を大幅に改善することが可能になるのだ。

 第4世代インテルXeonスケーラブル・プロセッサーでは、そうしたアクセラレータが4つ、さらにアクセラレータのように活用できる新しい命令セットが2つ搭載されている。具体的には、アクセラレータとしてQAT(Quick Assist Technology)、DLB(Dynamic Load Balancer)、DSA(Data Streaming Accelerator)、IAA(In-memory advanced Analytics Accelerator)が搭載され、拡張命令としてAMX(Advanced Matrix eXtensions)、Advanced Vector Extensions for vRANの2つが追加された。
アクセラレータを内蔵しており、アクセラレータを活用することで電力効率を改善(出典:第4世代インテルXeonスケーラブル・プロセッサー発表、インテル株式会社)

 このうち、QATは暗号化と復号を行なうアクセラレータで、ネットワークのパケット処理などに利用するとCPUの処理をオフロードできるようになる。QATは既に初代インテルXeonスケーラブル・プロセッサーの時に導入されたアクセラレータだが、従来はチップセット側に実装されていた。今回はそれがCPU側に実装されるようになり、より電力効率が高まっているのが大きな特徴となっている。

 拡張命令のAMXは、今回の第4世代インテルXeonスケーラブル・プロセッサーの目玉機能の1つと言ってよく、新しい演算器となるTMUL(Tile Matrix multiply Unit)を利用して行列演算を効率よく行なえる。昨今ではChat GPTのような自然言語処理を利用したチャットボットなどが話題を呼んでいるが、一般的にAIの推論処理の多くはデータセンターにあるCPUの上で処理されることが多く、AMXを活用することで、そうした推論のアプリケーションを処理する時の性能を向上させることができる。

 こうしたQATなどのアクセラレータやAMXなどの新命令セットに対応することで、第4世代インテルXeonスケーラブル・プロセッサーは従来世代と比較して大きな性能向上と電力効率の改善を実現している。例えばIAAアクセラレータを有効にしたインメモリデータベース(RockDB)では2.93倍、AMXを利用したAI推論(SSD-RN34)で10倍という性能を実現しており、アクセラレータの効果が非常に大きいことがよくわかる。さらに電力効率も大きく改善されており、アクセラレータなどを活用することで従来世代に比べて2.9倍高効率な電力効率になっているとインテルは説明している。
インテルXeonスケーラブル・プロセッサーの前世代との性能比較、AIで10倍に、インメモリデータベースで2.9倍などアクセラレータを活用することで高い性能を実現している。また電力効率は約2.9倍になっている(出典:第4世代インテルXeonスケーラブル・プロセッサー発表、インテル株式会社)
通信向け第4世代インテルXeonスケーラブル・プロセッサーはvRANブースト内蔵で、従来より2倍の性能

 第4世代インテルXeonスケーラブル・プロセッサーは、クラウドサービスプロバイダー(CSP)が提供するようなパブリッククラウドサービスだけでなく、さまざまな社会基盤にも利用されるようになっている。ワイヤレス通信の通信キャリアが提供している5G(第5世代移動通信システム)を裏で支えているのも、実はインテルXeonスケーラブル・プロセッサーだ。

 2月27日からスペイン王国バルセロナ市で開催された通信関連の展示会「MWC 2023」では、多くの機器ベンダーがインテルアーキテクチャに基づいた5G向けのコアネットワーク(契約者情報などを処理する機器)、RAN(Radio Access Network、基地局を含む端末とやりとりを行なう無線通信網)など、5G通信を裏側で支えるネットワーク機器の展示やデモを行なった。

 現在ワイヤレス通信業界では、従来型の固定機能を持つハードウエアを、汎用プロセッサ+ソフトウエアで置きかえるSDN(Software Defined Network)と呼ばれる取り組みへのシフトが急務となっている。その背景には5Gの本来の性能を発揮させるため、4G/LTE世代のハードウエアを一部使用するNSA(Non Stand Alone)方式から、SA(Stand Alone)方式への移行が進んでいるという事情がある。SA方式では5Gに対応したコアネットワークが必要になるため、その導入を機に従来の固定機能のハードウエアからSDNへと移行する通信キャリアが少なくないのだ。

 インテルは2010年代の半ばから、こうしたコアネットワークやRANのSDN化に向けて、NFV(Network Functions Virtualization)、あるいはNFVI(Network Functions Virtualization Infrastructure)などと呼ばれているソリューションの採用を訴え続けてきた。NFVは仮想化技術を利用して、その上で動作するOSやアプリケーションを抽象化する技術で、CSPのデータセンターやエンタープライズのオンプレミスのデータセンターなどで一般的に利用されている、インテルVTが活用されている。

 今回のMWCではインテルXeonスケーラブル・プロセッサーを利用したコアネットワーク、仮想化されたRANとなるvRANのソリューションが多数展示されていた。特にvRANに関しては、既に商用利用を行なっている通信事業者のほぼ100%がインテルベースになっていると、インテルはプレスリリースの中で発表しており、同社ブースでは、auブランドのKDDIと楽天モバイルが、vRANの構築にインテルXeonスケーラブル・プロセッサーを活用していること、さらにNTTドコモが採用する計画があることを明らかにした。
関連記事

通信キャリアSDN化競争の序盤戦に圧勝したIntel、レイヤ1のアクセラレーター内蔵第4世代Xeon SPや低消費電力技術投入をMWCで発表

 このほか、このMWCでインテルは、vRANに対応した新しい製品として「vRANブースト内蔵第4世代インテル Xeon スケーラブル・プロセッサー」(以下vRANブースト内蔵第4世代インテルXeonスケーラブル・プロセッサー)を発表している。

 この製品は、通信事業者にとって必要になるレイヤ1のパケット処理をオフロードするためのアクセラレータがCPUに内蔵されている点が大きな特徴となる。このアクセラレータは、従来はACC100という型番でPCI Expressカードとして提供されていたもの。それがCPUに内蔵されたことで、消費電力の観点からも、サーバーの物理的なスペースという意味でも、大きなメリットを通信事業者に提供できる。インテルによれば、従来のソリューション(第3世代インテルXeonスケーラブル・プロセッサー+ACC100)に比較して2倍の処理能力を実現しながらも、消費電力は25%削減可能になっているとのことだ。
vRANブースト内蔵第4世代インテル Xeon スケーラブル・プロセッサーの展示。外付けレイヤ1アクセラレータ+従来世代と比較して、レイヤ1アクセラレータを内蔵しているvRANブースト内蔵第4世代インテルXeonスケーラブル・プロセッサーは2倍の性能を発揮

 今後インテルは、さらなる消費電力の削減にも取り組んでいく。MWCの会場では「Intel Infrastructure Power Manager for 5G core reference software」という省電力削減ツールを提供することを明らかにしており、そのツールを利用すると、コアネットワークの電力を30%削減できるとアピールしていた。
Intel Infrastructure Power Manager for 5G core reference software、約30%の電力を削減できる
通信キャリアなどの新しい領域を切り開いていく第4世代インテルXeonスケーラブル・プロセッサー

 インテルは今後も強力なロードマップを敷いており、今後もこうしたデータセンター向けのソリューションを多数計画している。インテルのデータセンター向けのロードマップでは、現在の第4世代インテルXeonスケーラブル・プロセッサーの後継となるEmerald Rapidsを2023年の後半に、そして、そのさらなる後継となる製品のGranite Rapidsを2024年に投入すると明らかにしている。

 Granite Rapidsは、現在の第4世代インテルXeonスケーラブル・プロセッサーの製造に利用されているIntel 7から2世代分微細化される、Intel 3という製造技術を利用して製造される予定になっており、さらなる性能の向上と電力効率の改善が期待できる。

 さらに同じ2024年には、クライアントPCではE-cores(Efficiencyコア、高効率コア)と呼ばれているCPUコアのデザインだけで構成されるデータセンター向けのCPUとして、「Sierra Forest」も計画されている。こちらは電力効率とコア数の密度にフォーカスしたソリューションになり、大量のデータを並列に処理しながら消費電力を抑えることが可能になるとみられている。こちらもIntel 3の製造技術で製造するとインテルでは説明している。
インテルのデータセンター向け製品ロードマップ(出典:第4世代インテルXeonスケーラブル・プロセッサー発表、インテル株式会社)

 このように、インテルのインテルXeonスケーラブル・プロセッサーは、世界中のCSP、エンタープライズのデータセンター、そして今や携帯電話の通信キャリアにまで世界中のデータセンターで採用されるようになっている。第4世代インテルXeonスケーラブル・プロセッサーでは、アクセラレータを搭載することでさらに電力効率が改善され、サステナブルなデータセンターの構築に寄与するようになっており、データセンターの今後を検討する上で、第4世代インテルXeonスケーラブル・プロセッサーは見逃せない製品だ。 』

TPM の推奨事項

TPM の推奨事項
https://learn.microsoft.com/ja-jp/previous-versions//mt604232(v=vs.85)?redirectedfrom=MSDN

『このトピックでは、Windows 10 のトラステッド プラットフォーム モジュール (TPM) テクノロジに関する推奨事項を示します。

概要

トラステッド プラットフォーム モジュール (TPM) テクノロジは、ハードウェア ベースのセキュリティ関連機能を提供します。TPM は、さまざまなデバイスやフォーム ファクターで暗号化操作を実行するために設計された、セキュリティ関連の暗号プロセッサです。TPM には、複数の物理的なセキュリティ メカニズムが搭載されています。TPM のセキュリティ機能は、悪意のあるソフトウェアによる改ざんを防ぐのに役立ちます。TPM テクノロジを使う主な利点は次のとおりです。

暗号化キーを生成、格納、使用、保護します。
一意の保証キー (EK) を使うことで、TPM テクノロジをプラットフォーム デバイスの認証に利用できます。
セキュリティ対策を取得して格納することで、プラットフォームの整合性を高めます。

TPM の最も一般的な機能はシステム整合性の測定とキーの作成に使われます。システムのブート プロセスの実行時、読み込まれたブート コード (ファームウェア、オペレーティング システム コンポーネントを含む) は TPM で測定して記録できます。整合性の測定値は、システムがどのように起動されたかの証拠として使えます。また、正しいソフトウェアによるシステムの起動にのみ TPM ベースのキーが用いられたことの確認としても使えます。

Trusted Computing Group (TCG) の仕様には、TPM のさまざまなバージョンが定義されています。

一部の情報はリリース前の製品に関することであり、正式版がリリースされるまでに大幅に変更される可能性があります。ここに記載された情報について、Microsoft は明示または黙示を問わずいかなる保証をするものでもありません。

TPM 1.2 と 2.0 の比較

業界標準から、Microsoft は TPM 2.0 への移行と標準化について業界をリードしています。 以下の表に示すように、TPM 2.0 にはアルゴリズム、暗号化、階層、ルート キー、承認、NV RAM にわたって数多くのメリットがあります。
TPM 2.0 を使う理由

TPM 2.0 の製品やシステムは TPM 1.2 と比較して次の重要なセキュリティ上の利点があります。

TPM 1.2 仕様では、RSA と SHA-1 ハッシュ アルゴリズムの使用のみが許可されます。
セキュリティ上の理由から、一部のエンティティは SHA-1 の使用を避け始めています。 特に、2014 年現在、NIST は多くの連邦機関に対して SHA-256 への移行を要請しています。Microsoft や Google などのテクノロジ リーダーも、SHA-1 ベースの署名と証明書のサポートを 2017 年に終了することを発表しました。
TPM 2.0 は暗号化アルゴリズムをより柔軟にすることで、より高速な暗号化を実現しました。
    TPM 2.0 では、SHA-256 と ECC がサポートされます。ECC は、署名とキー生成のパフォーマンスを高める場合に重要です。
    TPM 2.0 は、ISO 標準 (ISO/IEC 11889:2015) として承認されました。
    TPM 2.0 の使用は、OEM において、特定の国や地域のために標準構成に例外を設ける必要をなくすために役立つ場合があります。
TPM 2.0 は、異なる実装間でより一貫性のあるエクスペリエンスを実現します。
    TPM 1.2 の実装は、ディスクリートとファームウェアでポリシー設定に違いがあります。ロックアウトのポリシーが異なるため、サポートの問題が生じることがあります。
    TPM 2.0 で標準化されたポリシー要件は、デバイス間で一貫したロックアウト エクスペリエンスを確立するために役立ちます。これにより、Windows 全体にわたってより優れたユーザー エクスペリエンスが提供されます。
TPM 1.2 の部品は、一般的にマザーボード上にはんだ付けされたディスクリートなシリコン コンポーネントでした。これに対して TPM 2.0 は、ディスクリート (dTPM) なシリコン コンポーネントとして提供されるものと、次のようなシステムのメイン SoC 上の信頼された実行環境 (TEE) で動作する、ファームウェア (fTPM) ベースのコンポーネントとして提供されるものがあります。
    Intel のチップでは、Intel Management Engine (ME) または Converged Security Engine (CSE) です。
    AMD のチップでは、AMD Security Processor です。
    ARM のチップでは、Trustzone Trusted Application (TA) です。
    デスクトップ Windows システム用のファームウェア TPM の場合、チップ ベンダーは、ファームウェア TPM の実装を他のチップ ファームウェアと共に OEM に提供します。

ディスクリート TPM かファームウェア TPM か

Windows では、ディスクリート TPM とファームウェア TPM が同じように使われます。どちらを選んでも機能的なメリットやデメリットはありません。

セキュリティの観点からも、ディスクリートとファームウェアの特性は同じです。

両方とも、ハードウェア ベースのセキュリティで保護された実行を使います。
両方とも、TPM 機能の一部にファームウェアを使います。
両方とも、改ざんに対して抵抗する機能が備わっています。
両方とも、セキュリティに関する固有の制限事項/リスクがあります。

詳しくは、ファームウェア ベースの TPM 2.0 の実装 (fTPM) に関するページをご覧ください。
今後の Windows 10 の TPM 2.0 への準拠

2016 年 7 月 28 日以降に出荷されるすべての Windows 10 デバイスは、すべての種類の SKU において、TPM 2.0 ディスクリートまたはファームウェアを使用している必要があります。 この要件は、Windows ハードウェア認定プログラムを通じて適用されます。
Windows 10 デスクトップ エディション (Home、Pro、Enterprise、Education)

Windows 10 と Windows 8 のすべてのコネクト スタンバイ システムに TPM 2.0 のサポートを含める必要があります。
Windows 10 以降では、統合された fTPM2.0 を含む SoC を選択する場合、デバイスは fTPM FW をサポートするか、ディスクリート TPM 1.2 または 2.0 と共に出荷する必要があります。
2016 年 7 月 28 日以降、Windows 10 デスクトップを搭載するすべてのデバイスは、TPM 2.0 を実装し、TPM を有効にした状態で出荷する必要があります。

Windows 10 Mobile

Windows 10 Mobile を搭載するすべてのデバイスは、TPM 2.0 を実装し、TPM を有効にした状態で出荷する必要があります。

IoT Core

IoT Core では、TPM はオプションです。

Windows Server 2016 Technical Preview

Windows Server の SKU については TPM はオプション、ただしその SKU が Host Guardian Services のシナリオの追加条件 (AQ) を満たしている場合は TPM 2.0 が必要です。

TPM と Windows の機能

次の表では、TPM サポートが必要な Windows の機能を定義します。一部の機能は Windows 7/8/8.1 には適用されませんが、それについては記載されていません。
Windows の機能 Windows 7/8/8.1 TPM 1.2 Windows 10 TPM 1.2 Windows 10 TPM 2.0 詳細
メジャー ブート 必須 必須 必須 メジャー ブートには TPM 1.2 か 2.0 および UEFI セキュア ブートが必要です。
BitLocker 必須 必須 必須 TPM 1.2 以降、またはフラッシュ ドライブなどのリムーバブル USB メモリ デバイスが必要です。
Passport: ドメイン AADJ への参加 該当なし 必須 必須 両方のバージョンの TPM をサポートしますが、キーの構成証明のサポート用に HMAC および EK の証明書付きの TPM が必要です。
Passport: MSA またはローカル アカウント 該当なし 必須ではない 必須 TPM 2.0 およびキーの構成証明のサポート用に HMAC と EK の証明書が必要です。
デバイスの暗号化 該当なし 必須ではない 必須 TPM 2.0 は InstantGo のすべてのデバイスに必要です。
デバイス ガード/構成可能なコードの整合性 該当なし 省略可能 省略可能
Credential Guard 該当なし 必須 必須 Windows 10、バージョン 1511 では、TPM 1.2 または 2.0 を強くお勧めします。TPM がインストールされていない場合でも Credential Guard は有効になりますが、Credential Guard を暗号化するために使われるキーは TPM によって保護されません。
デバイスの正常性の認証 該当なし 必須ではない 必須
Windows Hello 該当なし 必須ではない 必須ではない
UEFI セキュア ブート 必須ではない 必須ではない 必須ではない
プラットフォームのキー記憶域プロバイダー 該当なし 必須 必須
仮想スマート カード 該当なし 必須 必須
証明書ストレージ (TPM バインド) 該当なし 必須 必須

TPM 2.0 のチップセット オプション

ディスクリートとファームウェアの両方について、さまざまな TPM 製造元が存在します。
ディスクリート TPM
サプライヤー

Infineon
Nuvoton
NationZ
ST Micro

ファームウェア TPM
サプライヤー チップセット
AMD

Mullins
Beema
Carrizo

Intel

Clovertrail
Haswell
Broadwell
Skylake
Baytrail

Qualcomm

MSM8994
MSM8992
MSM8952
MSM8909
MSM8208

TPM 2.0 のシステムの可用性に関する OEM のフィードバックとステータス
認定済みの TPM パーツ

政府関連のお客様や規制のある業界の大企業のお客様は、場合によっては調達基準により一般的に認定済みの TPM パーツを使う必要があります。このため、デバイスを提供する OEM では、認定済みの TPM コンポーネントだけを使って商用クラスのシステムを構築することが必要になる可能性があります。 ディスクリート TPM 2.0 のベンダーは、2015 年末に認定を完了することを目指しています。
Windows 7 32 ビット版のサポート

TPM 2.0 の仕様や製品が存在する以前に出荷された Windows 7 であっても、マイクロソフトは Windows 7 64 ビット版に対して TPM 2.0 のサポートをバックポートして、2014 年の夏に UEFI ベースの Windows 7 システム用のダウンロード可能な Windows 修正プログラムをリリースしました。現在、マイクロソフトでは、Windows 7 32 ビット版へのバックポート サポートの提供は検討しておりません。

この記事の内容

概要
TPM 1.2 と 2.0 の比較
TPM 2.0 を使う理由
ディスクリート TPM かファームウェア TPM か 』

Trusted Platform Module

Trusted Platform Module
https://ja.wikipedia.org/wiki/Trusted_Platform_Module

 ※ これを読むと、物理的な形態としては、「コンピュータのマザーボードに直付けされているセキュリティに関する各種機能を備えた半導体部品」ということのようだ…。

 ※ 何か、CPUの内部に「回路として」組み込まれているようなものと誤解していた…。

 ※ 「CPU内部のセキュリティ領域で実行されるファームウェアTPM」とか、書いてあるからな…。

『Trusted Platform Module (TPM、トラステッド プラットフォーム モジュール) とは、コンピュータのマザーボードに直付けされているセキュリティに関する各種機能を備えた半導体部品で、データの暗号化・復号や鍵ペアの生成、ハッシュ値の計算、デジタル署名の生成・検証などの機能を有する。国際標準規格(ISO/IEC 11889)に則っている[1][2]。主に専用半導体部品として実装されたディスクリートTPMと、CPU内部のセキュリティ領域で実行されるファームウェアTPMがある[3]。

概要

RSA暗号演算やSHA-1ハッシュ演算といった機能を有しており、チップ内で暗号化・復号、デジタル署名の生成・検証、プラットフォームの完全性検証を行うことができる。また、TPMの内部でRSAの鍵ペア(公開鍵と秘密鍵)を生成することができる。

TPMの仕様はTCG (Trusted Computing Group) という国際的な業界団体で策定されており、最新のバージョンは2.0である。1.2まではRSAのみであったが、2.0からはAESやECDSAなどを含め多種多様な暗号アルゴリズムをチップ内で処理できるようになり、ソフトウェアが暗号ライブラリを負担する必要が大幅に減ったため、暗号境界がより明瞭になった。

ノートPCだけではなく、デスクトップPCにもTPMは搭載されている。Windows OSとしてはWindows Vistaが初めて正式にサポートした[4]。Intelチップを搭載した初期のMacintoshにもTPMチップを搭載したものがある[5]。

この技術は、さらに発展を遂げている。チップセット等の連携を強化した技術として、Intel Trusted Execution Technology がある。また、仮想機械向けの命令仕様拡張も提案されている[6]。

組み込み用途向けとしては、SPIやI2Cなどのインタフェースを持つものがリリースされている。ピン数が少なくなるためコストが縮小するほか、インタフェースの簡素化など攻撃表面の縮小(Attack surface reduction)の概念と相性が良いという利点がある。近年、車の自動運転やIoTなどで需要を伸ばしている分野である。

Trusted Computing Groupは、特にディスクリートTPMについて、求められるセキュリティレベルを考慮すると、耐タンパー性を備えているべきだとしている[7]。

TPMの機能

TPMは以下の機能を提供する。

RSA
    演算
    鍵生成
    鍵格納
SHA-1ハッシュ
    ハッシュ値計算
    ハッシュ値保管
乱数生成

TPM1.2から以下の機能が追加された。

カウンタ
    単純増加カウンタ
    ティックカウンタ
オーナー権委任(パスワードは公開しない)
不揮発性ストレージ保存機能

TPM2.0は機能や概念が一新され、以下が追加された。

シードとオブジェクトの概念
認証形式の追加(KDFによるセッション鍵生成、Policy認証)
認証と秘密通信の高速化

アルゴリズムの大幅な追加
    各種ハッシュ演算(SHA256、SM3、HMAC、KDFなど)
    楕円曲線暗号(NIST curve P-256、SM2など)
    AES(128bit~256bit、OFB、CTRなどの各種モード)
グループの複製(Key duplication)

不揮発性カウンタ
不揮発性ビットフィールド

TPMでできること

上記の機能を用いて、TPMでは以下のことを実現できる。

プラットフォームの完全性を計測し、OSやアプリケーションの改竄を検知できる。
公開鍵証明書を用いた端末の個体識別、詐称困難な端末認証を実現する。
データ(ストレージ)を暗号化し、不正に持ち出した情報は復号させない。

TPM利用時の注意点

TPMをハードウェアに搭載したからといって即座にシステム全体のセキュリティを担保できるわけではない。TPMを使用するシステムの要件定義からアプリケーションの実装まで全てを考慮しなければ、最終的に容易に破られるシステムができあがることになる。

チップ自体のスペックが高くないことや、内部ファームウェアがセキュアコーディングで書かれていること、インタフェースが低速であることが原因で、数百キロバイトを超えたデータの暗号/復号は時間がかかることに留意する必要がある。

TPMのファームウェアリビジョンによっては、対称鍵暗号コマンド(TPM2_EncryptDecrypt2)が実装されておらず、伝送系路上に乗る平文を暗号化できない場合がある。
TPM利用技術

BitLocker

マイクロソフトのドライブ暗号化技術。TPMを利用したハードディスクドライブの暗号化が可能。ただし必ずしもTPMを用いなければならないわけではなく、USBメモリキーに鍵を格納する方法や、パスワードで保護する方法がある[8]

Trusted HTTP-FUSE KNOPPIX

産業技術総合研究所からリリースされている、HTTPブートクノーピクスのTPM利用版。TPMのプラットフォーム検証技術を利用して、ブートシーケンスが改ざんされていないかを監視することが可能 』

龍芯

龍芯
https://ja.wikipedia.org/wiki/%E9%BE%8D%E8%8A%AF

『この記事は中国語版の対応するページを翻訳することにより充実させることができます。(2019年8月)

翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
加筆をお願いします

この項目「龍芯」は加筆依頼に出されており、内容をより充実させるために次の点に関する加筆が求められています。
加筆の要点 – 龙芯ベースの製品、龙芯ソフトウェアの生態情報
(貼付後はWikipedia:加筆依頼のページに依頼内容を記述してください。記述が無いとタグは除去されます)
(2019年8月)
Question book-4.svg

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。
出典検索?: “龍芯” – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2019年8月)
Ambox outdated serious.svg

この記事は更新が必要とされています。
この記事には古い情報が掲載されています。編集の際に新しい情報を記事に反映させてください。反映後、このタグは除去してください。(2019年8月)』

『龙芯(中: 龙芯英: Loongson,旧名英: Godson[1])は、中国科学院コンピューティング技術研究所の胡偉武およびその他によって設計された汎用中央処理装置であり、MIPSアーキテクチャとLoongISA®縮小命令セットアーキテクチャを使用してMIPS®命令セットを購入します[2]。

龙芯1系列は組み込みチップであり、多くの企業で使用されています。

龙芯2系列の速度は最大1 GHzで、シンクライアントや産業用制御などのローエンドアプリケーションで使用されます。

龙芯3系列は、デスクトップ、サーバー、スーパーコンピューター、産業用制御などの分野で2010年に発売されました。

現在、中国科学院のコンピューティング技術研究所は、龙芯中央処理装置を搭載したスーパーコンピュータープログラムも開発しています[3]。』

『履歴

Godson時代(2000-2010)

2000龙芯一号(Godson-1)開発を開始。

2001年5月、中国科学院コンピューティング技術研究所の知識革新プロジェクトの支援により、龙芯グループが正式に設立されました。

2001年8月19日龙芯一号の設計および検証システムは、Linuxオペレーティングシステムを正常に起動しました。

2002年8月10日中国初の汎用CPU龙芯一号(コードXIA50)が成功しました。

2003年10月17日中国で最初の64ビット汎用CPU龙芯2B(コードネームMZD110)が成功しました。

2004年9月28日龙芯2C(コードネームDXP100)は成功しました。

2006年3月18日、周波数が1 GHzを超える中国初の汎用CPU龙芯2E(コードネームCZ70)がリリースされました。

2006年10月、中国とフランスは北京のロンソンプロセッサに関する中国科学アカデミーとSTMicroelectronicsの間で戦略的協力協定に署名し、胡錦涛国家主席とジャックシラクフランス大統領はこの協定の調印式に出席しました。

2007年7月31日龙芯2F(コードネームPLA80)が正常にリリースされました。龙芯2Fは龙芯の最初の製品チップです。

2009年9月28日中国初のクアッドコアCPU龙芯3A(コードネームPRC60)の成功。
産業時代(2010-現在)

2010年4月、中国科学院と北京は共同で株式の投資と設立を主導し、龙芯テクノロジー株式会社を設立し、龙芯は正式に研究開発から工業化に移行しました。

2012年10月8コア32nm龙芯3B1500フィルムが成功。

2013年12月龙芯テクノロジー株式会社は、北京市海淀区稲香湖路中関村環境保護科学技術実証公園龍芯工業園区に移転しました。

2015年8月龙芯の次世代高性能プロセッサアーキテクチャGS464Eがリリースされました。

プロセッサ/命令セット

龙芯一号

龙芯1号系列と2009年に龙芯テクノロジー株式会社がリリースした龙芯一号は同じ製品ではないことに注意してください。

龙芯一号(英語名Godson-1)は2000年に開発されました。

2001年8月19日、龙芯一号ロジックデザインがFPGAプラットフォームで実行されました。したがって、8月19日は龙芯の誕生日に指定されました。 龙芯一号の物理設計には3つのバージョンがあり、Aソリューションは龙芯がサードパーティから委託するように設計されており、Bプランは実験的なフロープラン、Cプランは量産プランです。 2002年8月10日、龙芯一号(プログラム)がオペレーティングシステムを正常に点灯し、8月29日、龙芯一号(Cソリューション)がオペレーティングシステムを正常に起動しました。 龙芯一号は、メイン周波数266MHz、32ビットの単一放射、オンチップの400万個のトランジスタを備えた0.18ミクロンCMOSプロセスでストリーミングされます。 MIPSIIIに似たRISC命令セットは、7ステージの動的パイプライン、32ビット整数ユニット、および64ビット浮動小数点ユニットを備えています。全体的なパフォーマンスは、Intel Pentium IIよりも低くなっています。コンピューター業界に従事していた胡偉武の指導者夏培粛の50周年を記念して、「龙芯一号」は「XIA50」と名付けられました。

2009年、中国石油大学の科学技術修士号とその研究チームは、龙芯2EへのWindows®CEの移植を実現し、龙芯の初期の組み込みエコシステムの開発を支援しました。ただし、2EのCE BSPと龙芯一号のBSPは同じものではないことに注意する必要があります。[4]
龙芯1号シリーズ

2010年4月、龙芯テクノロジー株式会社は正式に設立され、中国北京市海淀区稲香湖路中関村環境保護科学技術実証公園龍芯工業園区に定住しました。会社の設立後、龙芯調査市場は、ローエンドの組み込み製品ラインである龙芯1号系列を再確立しました。現在知られている製品は、龙芯 1A、1B、1C300 / 1C101(指紋生体認証アプリケーションチップ)、1D(超音波測定チップ)、1E04 / 1E0300 / 1E1000(1Eシリーズは龙芯航空宇宙向けの特別な照射防止プロセッサです)1F04 / 1F300(1Fシリーズは龙芯スペース特別な照射防止ブリッジをサポートする1Eシリーズです)、1G(オーディオ専用チップ)、1H(石油掘削高温チップ)、1J(抗照射シングルチップ)です。
龙芯1A

龙芯 1Aは、2011年の市場調査に基づいて龙芯が開発した組み込み市場向けのプロセッサです。 龙芯1Aプロセッサは、その設計の観点から、龙芯2Hを差し引いたものと見なすことができます。 龙芯1Aチップのメイン周波数は266MHzで、32ビットのスーパースカラーGS232プロセッサコアを使用します。二重発行順不同実行はMIPS32命令セットと互換性があります。第1レベルの命令キャッシュは16KB、第1レベルのデータキャッシュは16KBです。 130nm CMOSプロセスで製造され、448ピンの23mm * 23mm BGAパッケージで提供され、消費電力は1W未満です。 龙芯1Aは2012年に製品を供給しました。 龙芯1Aは、龙芯の他のプロセッサーのブリッジとして使用できます。

龙芯1Aは以前の龙芯1とはまったく異なる製品であり、龙芯1Aプログラムとは何の関係もないことに注意してください。

龙芯1B

龙芯1Bは、市場調査に基づいて組み込み市場向けに龙芯が開発したプロセッサです。龙芯1Bは、龙芯1Aの簡易版とみなすことができます。これは、組み込みプロセッサの開発におけるゴッドソンの継続的な減算の成果です。 龙芯1Bは、龙芯1Aより先に2011年にリリースされました。 200MHzでクロックされる龙芯1B、統合32ビットスーパースカラープロセッサコア(GS232)、デュアルイシューアウトオブオーダー実行構造は、MIPS32命令セット、5ステージパイプライン、8 KBの第1レベルの命令キャッシュ、および8 KBの第1レベルのデータキャッシュをサポートします。 130nm CMOSプロセスで製造された17mm * 17mm BGAパッケージは256ピンで、消費電力は<0.5Wです。最大の機能の1つは、12個のUART(シリアル)インターフェイスがあることです。 龙芯1Bは、システム全体の観点からコスト削減チップを検討した龙芯の歴史の中で初めてです。
龙芯1C300

2013年に発売された龙芯1Cは、指紋生体認証アプリケーション向けです。 龙芯1C300は300MHzでクロック駆動され、MIPS32命令セットと互換性のある32ビットスーパースカラープロセッサコア(GS232)のデュアル送信順不同実装を使用します;第1レベルの命令キャッシュは16KB、第1レベルのデータキャッシュは16KBです。 20mm * 20mm QFP176パッケージと130W CMOSプロセスで製造され、消費電力は<0.5Wです。

胡偉武の指導者である夏培粛の90歳の誕生日を記念して、龙芯1CのコードネームはXPS90です。
龙芯1C101

龙芯1C101は8MHzのクロックで動作し、32ビットプロセッサコア(GS132R)のシングル発行シーケンシャル実行を使用し、パッケージサイズ12mmx12mm、ピンカウント64、パッケージQFP64で130nmプロセスで製造されます。消費電力16.5mW /16.5μW

龙芯1C101チップは、「超人智能锁」用に2018年に龙芯によって開発および提供されたチップです。
龙芯1D

2014年に発売された龙芯1Dは、ユーザーのニーズに合わせてスマート水道メーター、ガスメーター、カロリーメーター用に龙芯がカスタマイズした特別な超音波計測チップです。 龙芯1Dは8MHzでクロックされ、MIPS 32命令セットと互換性のある32ビットプロセッサコア(GS132)を実行するために単一の送信シーケンスを使用します。オンチップメモリは4KB + 1KBSRAMおよび64KBFlashです。これには、1つの超音波パルス発生器、1つのアナログコンパレータ、および1つの時間デジタル変換器が含まれています。パッケージサイズ12mm * 12mm QFP80、消費電力100uWの130nm EFlashプロセスで製造。

龙芯1G

龙芯1Gは、「苏州上声音响」で使用される、顧客のニーズに合わせてカスタマイズされた特別なオーディオチップです。 龙芯1Gチップには、GS232デュアル埋め込み龙芯プロセッサーコア、LCDコントローラー、2つの適応MAC、DDR2コントローラー、USB2.0インターフェース、SPIコントローラーを含む各インターフェース8KBの命令およびデータキャッシュと統合された主な機能があります。 AC97コントローラー、I2Cコントローラー、RTCインターフェース、PWMコントローラー、GPIOポートなど

龙芯1H

2015年、新しく開発された龙芯1Hチップは、石油掘削の分野でのLWDアプリケーション向けに設計され、設計目標は175°Cの超高温作業条件下での長期にわたる信頼できる動作です。 龙芯1Hは8MHzでクロックを供給し、シングルショット実行、GS132プロセッサコア、MIPS32命令セット互換、3ステージパイプライン、統合単精度浮動小数点コプロセッサ、オンチップRAM /フラッシュ/ EEPROM、24ビットADC、コンパレータ、電源管理およびその他のモジュール、タイマー、SPI、UART、I2C、CAN、その他のインターフェース。このチップは設計フローとアプリケーション検証を完了し、商品化されています。製造プロセスは、14mm * 14mm QFP100にパッケージ化された130nm EFlashプロセスを使用し、50mWを消費します。 龙芯1Hは2017年4月にリリースされました。現在、龙芯1Hは長清油田で使用されています。

龙芯2号シリーズ

龙芯2号系列のオリジナルバージョンは、0.13ミクロンプロセステクノロジーに基づいていました。 龙芯2号系列は、2B、2C、2D、2E、2F / 2F-1000、2G / 2GQ、2H、2I(2GP)、2K1000 / 2K2000モデルとして知られています。 龙芯2プロセッサは64ビットプロセッサであり、初期のモデルは4ビットの順不同64ビットGS464シリーズプロセッサコアでしたが、新しいプロセッサはGS464Eプロセッサコアにアップグレードされました。 龙芯2Kプロセッサは、デュアル発行の順不同のGS264プロセッサコアを備えた64ビットデュアルコアプロセッサです。 龙芯2GQは4コアプロセッサです。

龙芯2A / 2B

龙芯2の設計は、2002年7月に4つの問題と順不同の設計、64ビットの設計、7〜10のパイプラインで始まりました。 龙芯2レジスタファイルは2つのオプションで設計されており、AスキームはTSカレントチップの商用レジスタファイルを使用し、BスキームはSMICで使用されるマイクロエレクトロニクスセンター設計のレジスタファイルを使用します。 Aスキームで採用されている商用レジスタファイルの設計に欠陥があり、チップが故障します。 Bソリューションの開発に成功し、2003年10月17日にオペレーティングシステムが正常に起動し、最大周波数は300MHz、消費電力は1W〜2Wです。同じメイン周波数で、龙芯2Bのパフォーマンスは、Pentium IIを超えています。PentiumIIは、Godson-1の3〜5倍です。毛泽东会長の誕生日110周年を記念して、龙芯2BはMZD110というコードネームを付けました。 龙芯2のパフォーマンスは、以前に開発されたGodson-1の3倍であり、同じPentium IIのパフォーマンスを超えています。

龙芯2C

龙芯2Cは、龙芯2Bの最適化バージョンです。上海SMICでは、SMICが0.18ミクロンのCMOSプロセスを使用して多くのテープアウトに成功し、2004年9月28日にフィルムのリリースに成功し、最終チップの定格は500MHzになりました。 龙芯2Cのパフォーマンスは、以前開発された龙芯2Bの3倍であり、同じ周波数で同じPentium IIIのパフォーマンスを達成しています。 邓小平の100歳の誕生日を記念するため、龙芯2CのコードネームはDXP-100です。
龙芯2D

龙芯プロセッサの初期の開発履歴によると、基本的に1年に1つのプロセッサストリームがあります。 龙芯2Cは2004年にリリースされ、龙芯2Eは2006年にリリースされたため、龙芯2Dは2005年にリリースされた製品であると推測できます。中国科学アカデミーのマイクロエレクトロニクス研究所の研究者である黄令仪の回想で、彼女は龙芯2Dの物理設計に関与していると述べました。 「龙芯的足迹」の記事「2006年のレビューと2007年の展望」で、胡伟武は「2005年に直面した厳しい状況が龙芯2Eに戦闘の悲劇的な色を与えた」と述べたため、龙芯2Dは単一の映画である可能性が高いと推測できます。失敗したモデル、または途中で放棄されたモデル。

龙芯2E

龙芯2Eは2005年11月末に映画に配信され、2006年3月18日にリリースされました。

龙芯2Eプロセッサの正面写真

2006年9月13日、龙芯2EはCZ70と名付けられ、長い行進の70周年を記念して、科学技術省、そしてその後、科学技術大臣徐冠華によって承認されました。

龙芯2Eは、中国本土で最初に90ナノメートルの技術で設計されたプロセッサで、トランジスタ数は4,700万で、最大周波数は1 GHzに達します。 龙芯2Eのチップサイズは6.8mm * 5.2mmで、Intel Pentium 4の1/4に過ぎません。龙芯2Eプロトタイプで測定されたSPEC CPU2000スコアは、固定小数点503ポイント、浮動小数点503ポイント、最高の倍精度浮動小数点演算速度は3.99GFlopsです。 龙芯2Eのパフォーマンスは龙芯2Cの3倍であり、中〜低価格のIntel Pentium IVプロセッサーのレベルに達します。 龙芯2Eの最適化された設計プロセスで、STMicroelectronicsは龙芯と協力しました。 龙芯2Eの成功に基づいて、STMicroelectronicsはライセンス料で3百万米ドルを超える龙芯2E / 2Fの生産および販売承認を購入し、中国のコンピューターコアテクノロジーの外部承認の先例を設定しました。 龙芯2EのNorthbridgeはFPGAを使用して実装されているため、コストが高く、プロセッサは大量生産されていません。 [5][6]

龙芯2F / 2F1000

龙芯2Fは2007年7月31日に正常にリリースされました。 龙芯2Fは、龙芯の最初の成功した商業プロセッサです。軍の創立80周年を記念して、龙芯2FコードネームはPLA80です。 龙芯2Fには、800MHzでクロックされる5,100万個のトランジスタが含まれ、STMicroelectronicsの90ナノメートルプロセスを使用しています。命令セットの64ビットMIPS IIIと完全に互換性があります。 龙芯2Fプロセッサーを搭載した福坂ミニコンピューターと8089A / Dラップトップは、多くのファンに販売されています。これまでのところ、これらの2つの製品を保持している龙芯ファンの数はまだ多くあります。

これは、Richard Stallman 龙芯2Fチップを搭載した江蘇省龙梦(Lemote)ノートブックコンピューターに属し、コンピューターはBIOSレベルで完全に無料のソフトウェアです。

2007年12月に、336の64ビット龙芯2Fプロセッサを搭載した中国初の国内兆高性能コンピューター KD-50-Iが正常に統合され、理論上のピークコンピューティング容量は1.008兆に達しました。このプロジェクトは、中国科学技術大学の学者陳国良(コンピューターエキスパート)が主催しました。コンピューターのコストは800,000 RMB未満に制御されます。[7][8]。

龙芯2G / 2G + / 2GQ / 2G-2000

龙芯2Gは、「High Core Safety Computer CPU Development and Application」原子力高規模主要プロジェクトの支援を受けて開発されました。2008年に設計されましたが、龙芯の2Gおよび3Aプロジェクトの同時実装により、開発の進捗に影響を与える重複がありました。 2010年に正常に開発されました。 龙芯2Gは65ナノメートルプロセスを採用し、主周波数は1.0 GHz、トランジスタ数は1億、命令セットはMIPS64と互換性があり、X86バイナリ変換アクセラレーション命令が追加され、龙芯メディア拡張命令に加えて、64 KB命令と64 KBデータのL1キャッシュ、1 MBがあります。 L2キャッシュ、消費電力3W。このプロセッサでは、X86バイナリ変換テクノロジが使用され、MIPSプラットフォームでX86ダイナミックバイナリ変換を実装する方法が提案されています。 龙芯2Gは、龙芯3A1000のシングルコアバージョンに相当します。 龙芯2GQは、クアッドコアプロセッサである龙芯2Gの製品版です。 龙芯2GQと龙芯3A1000の違いは、龙芯2GQは複数の相互接続をサポートしていないことです。龙芯2GPは後に龙芯2Iと改名されました。

龙芯2H

龙芯2Hは、龙芯2Gプロセッサおよび龙芯1A(2F Southbridge)の後継であり、セキュリティで保護されたコンピューター用のシングルチップソリューションを提供することを目的としています。 龙芯2Hは、周波数が1 GHz以上の65 nmプロセスで実装されています。主にネットワーク機器に使用されます。 MIPS64命令セットと互換性があり、X86バイナリ変換命令セットをサポートします。 64KBの命令L1cacheと64KBのデータL1cache、512KBのL2cacheがあります。統合されたGS232Vメディア処理IP。

龙芯2Hの最初のアプリケーションはネットブックでしたが、ネットブック市場が消滅したため、この分野には適用されませんでした。 龙芯2Hは、主に産業用制御の分野、およびファイアウォールを含むネットワークセキュリティの分野で使用されます。 龙芯2Hは2012年にリリースされ、サンプルは2013年にリリースされ、製品は2014年にリリースされました。 龙芯2Hのフローは、龙芯が複雑なSOCの設計能力を習得したことを示しています。 龙芯2Hの特徴は、多くの機能を統合した大規模で包括的な機能であり、チップ設計は複雑ですが、特定のアプリケーション向けに最適化されていません。 龙芯2Hは、スタンドアロンSOCまたはHTインターフェイスのサウスブリッジチップとして使用できます。

龙芯2I

龙芯アシニアメンテナー「Flygoat」の分析によれば、龙芯2Iは龙芯2GP0800Dの別のコード名です。

龙芯2K1000

龙芯2K1000は、デュアル送信64ビットGS264マイクロ構造、40 nmプロセス、1 GHzでクロックされる商用グレードチップ、および800 MHzでクロックされる産業グレードチップを使用するデュアルコアプロセッサです。

龙芯2K1000プロセッサの正面写真

龙芯Pi二代目ホームの正面写真

龙芯2K1000プロセッサは龙芯2Hのアップグレードチップであり、その計算性能とIO帯域幅は龙芯2Hよりも大幅に高くなっています。 龙芯2K1000は、タブレットと産業用制御分野の両方でのネットワーク通信アプリケーション向けに設計されています。

統合された64ビットDDR3コントローラー、2つのGMACコントローラー、2つのX4PCIEコントローラーは、6 X1モードで構成できます。統合共有1MBセカンダリキャッシュ、統合GPU、ディスプレイコントローラー、デュアルDVIディスプレイのサポート。統合64ビット533MHz DDR2 / 3コントローラー、1 SATA2.0インターフェイス、4 USB2.0インターフェイス、2 RGMIIギガビットネットワークインターフェイス、統合HDA / AC97 / I2Sインターフェイス、統合RTC / HPETモジュール。最大4つのUARTコントローラー、1つのNANDコントローラー、2つのCANコントローラー、および1つのSDIOコントローラーを統合します。

龙芯2K2000

龙芯2K2000は、計画中の龙芯2K1000のアップグレード版であり、2 GHzの周波数で28ナノメートルプロセスで生産される予定です。

龙芯3号シリーズ

龙芯3プロセッサは、4送信64ビットマルチコアプロセッサです。現在、龙芯3B1500プロセッサは8コアであることに加えて、他の龙芯3プロセッサは4コアです。 龙芯3C5000プロセッサは、プロセッサコアを16に増やします。

龙芯3プロセッサの微細構造は、GS464、GS464E、GS464V、およびGS464EV(GS464v)に分かれています。

龙芯3A1000

龙芯3A1000は、STMicroelectronicsの65nmプロセスフローを使用して2008年末に納品されました。2009年5月20日、龙芯3A1000ウェーハ生産は組立ラインから外れました。9月28日、サンプルが戻って、800MHz-1GHzのクロックでオペレーティングシステムを正常に起動しました。 龙芯3A1000は2010年5月中旬に最初に改訂およびリリースされました。10月末の最初の改訂は成功しました。 3A1000の2番目のリビジョンは2012年2月下旬にリリースされ、2012年8月中旬に正常にリリースされました。 龙芯3A1000は、4つの4つのアウトオブオーダー実行GS464コア、9ステージパイプライン、64KBプライマリデータキャッシュおよび64KBファーストレベル命令キャッシュ、4MB共有セカンダリキャッシュ、最大周波数1GHz、消費電力15w(ダイナミックドロップをサポート)を統合します周波数)、チップ面積は174mm2、トランジスタ数は4億2500万です。各CPUコアには2つの浮動小数点乗算および加算パーツが含まれ、倍精度浮動小数点パフォーマンスピークは16GFlopsです。 龙芯3A1000プロセッサには、x86バイナリ変換アクセラレーション命令が実装されています。 3A100は、HT1.0 * 2、PCIコントローラー、LPC、SPI、UART、GPIOを統合しています。 1121ピンと40mm x 40mm FCBGAパッケージを備えた統合72ビットDDR2 / 3コントローラー。

龙芯3B1000

2010年11月の終わりに、3B1000チップの最初のバッチがリリースされ、2011年2月上旬にリリースされ、7月上旬に返却されました。 龙芯3B1000は2度目の再設計を行い、2011年12月上旬にリリースされ、2012年4月末に返却されました。

龙芯3B1000は、高性能マルチコアCPU R&Dおよび原子力ハイベースプロジェクトのアプリケーションでサポートされています。STMicroelectronicsの65ナノメートルプロセスで設計されており、周波数は1 GHz、消費電力は25 Wです。8つの64ビット4発行の順不同の龙芯ベクトル実装を統合しています。プロセッサコアGS464V、4MBセカンダリキャッシュ、各コアには2つの256ビットベクターコンポーネントが含まれ、ピーク浮動小数点パフォーマンスは128GFLOPSです。

龙芯3B1000の最大の特徴は、GS464コアの浮動小数点コンポーネントと浮動小数点レジスタファイルを2つの256ビットベクトル処理コンポーネントと128×256ビットベクトルレジスタファイルで置き換える龙芯ベクトルプロセッサコアの設計です。 1 GHzでの龙芯3Bのピーク倍精度浮動小数点計算機能は、128 GFlopsに達します。 龙芯3Bプロセッサには、300を超える専用のベクトル処理命令が実装されています。

龙芯3Bチップの面積は300mm2で、トランジスタの数は6億個近くです。

龙芯3B1500

龙芯3B1500は、2012年1月中旬に設計および出荷されました。サンプルは2012年8月末に採取されました。その後、プロセスは32nmから28nmに移行し、2013年4月末にリリースされました。10月末にサンプルが受け取られましたが、フィルムは成功しませんでした。その後、32nmプロセスに復元され、何らかの方法でフィルムのコストが補償されました。そのため、再度改訂され、2015年1月末にリリースされました。サンプルは2015年6月下旬に受領されました。

龙芯3B1500Eプロセッサの正面写真

龙梦A1310マザーボード(統合された龙芯3B1500Eプロセッサ)

龙芯は当初16コアの龙芯3Cプロセッサーの発売を計画していましたが、戦略的な調整により、当初の龙芯3Cはキャンセルされ、8コアの龙芯3B1500は縮小されました。 龙芯3B1500は、8つの4号アウトオブオーダー64ビットGS464Vプロセッサコア、9ステージパイプラインを統合し、各プロセッサコアは64KBのプライベート第一レベル命令キャッシュと64KBのプライベートプライマリデータキャッシュ、128KBプライベートセカンダリキャッシュを備えています8MB 3レベル共有キャッシュ、SMICの32nmプロセスを使用、チップ面積180mm2、トランジスタ数11億、1.5GHzでクロック、フリップチップボールグリッドアレイ(フリップチップBGA)パッケージ、チップピン数1121、パッケージサイズ40mm×40mm。シングルチップの倍精度浮動小数点演算能力は192GFlopsに達します。消費電力は30w(標準)/ 60w(ベクター)です。

インターフェイスには、HT2.0 * 2、PCI、LPC、SPI、UART、GPIO、72ビットDDR2 / 3コントローラーがあります。
龙芯3A2000 / 3B2000

龙芯3A2000は2014年11月上旬に映画に配信され、2015年4月10日にブラインド映画が取得されました。 2015年8月18日、龙芯は記者会見を開き、新製品を正式にリリースしました。 2015年9月と2016年3月に、それぞれ1回目の改訂設計と2回目の改訂設計が実施されました。

龙芯3A2000プロセッサは、64ビットGS464Eプロセッサコアの4つの問題の順不同の実装を4つ統合し、GS464Eマイクロアーキテクチャを使用する最初のプロセッサです。 SMICの40nm CMOSプロセスで製造され、周波数は800〜1000MHz、SPEC CPU2006スコアは1GHzで6.9です。パッケージタイプFCBGA、1121ピン、パッケージサイズ40mm×40mm。 GS464Eプロセッサコアは、統合された64KBレベル1命令キャッシュ、64KBレベル1データキャッシュ、256KBレベル2キャッシュ、および4MBレベル3キャッシュを備えたGS464の改良バージョンです。特に、GS464Eプロセッサコアのストリームパフォーマンスは大幅に改善され、シングルコアSTREAMのパフォーマンスは6.3GB / sであり、これは龙芯3A1000の20倍です。パイプラインは、GS464の第9レベルから第12レベルにアップグレードされました。 16GFlopsのピーク浮動小数点パフォーマンス。

インターフェースでは、龙芯3A200は2つのHT3.0インターフェース、PCIコントローラー、LPC、SPI、UART、GPIO、72ビットDDR2 / 3-1333×2コントローラーを統合します。
龙芯3A1500-I

龙芯3A1500-Iは、龙芯3A2000の陶器で密封されたバージョンで、工業用グレードのチップで、SMICの40nm LLテクノロジーを使用して、700〜1000MHzの周波数でストリーミングします。推奨周波数は800MHzです。
龙芯3A3000 / 3B3000

龙芯3A3000は2016年2月中旬に納品され、6月中旬に盲目的に封印されました。 2016年10月17日、龙芯3A3000は量産に入ることができます。

2017年4月26日、龙芯は記者会見を開き、龙芯3A3000プロセッサを正式にリリースしました。

龙芯3A3000 / 3B3000は1.2Hz〜1.5GHzでクロックされ、4コアプロセッサであり、4つの問題のアウトオブオーダー64ビットスーパースカラープロセッサコア(GS464E)を4つ使用し、MIPS64命令セットをサポートし、Loongex®拡張命令セットLoongISA®をサポートします1.0、12ステージのスーパースカラーパイプラインを使用、各コアには2つの固定小数点ユニット、2つの浮動小数点ユニット、および2つのメモリアクセスユニットがあります。各プロセッサコアには64KBプライベートレベル1命令キャッシュと64KBプライベートレベル1データキャッシュが含まれ、各プロセッサには256KBのプライベートL2キャッシュが含まれ、すべてのプロセッサコアは8MB L3キャッシュを共有します。

龙芯3A3000プロセッサの正面写真

龙芯3A2000と比較して、SMICの40nmからSTの28nm CMOSプロセスへのストリーマープロセスに加えて、プロセッサのL3キャッシュも4MBから8MBに増加しました。ピーク浮動小数点パフォーマンス24GFlops。 1121ピンの40mm * 40mm BGAパッケージでパッケージされ、標準消費電力は<40W@1.5GHzです。 統合インターフェースはHT3.0 * 2、PCIコントローラー、LPC、SPI、UART、GPIO、72ビットDDR2 / 3-1600 * 2であり、ECCをサポートしています。 龙芯3A3000の全体的なパフォーマンスは、Intel®Atom™J1900プロセッサーと同等です。

龙芯3A3000の成功後、龙芯テクノロジー株式会社胡伟武の社長はスピーチで「私たちのゴッドソン3号-龙芯の15周年」、「3A3000の一般的な処理性能は国際的な一般処理を超えました。パフォーマンスの最初のしきい値であるシングルコアSPEC CPU2006パフォーマンスは、サーバー向けのARMのハイエンドプロセッサ、Intelのローエンドシリーズ(Atomシリーズ)プロセッサとVIAプロセッサ、および3A3000のメモリ帯域幅と同等です。 AMDおよびIntelのハイエンドシリーズ(コアシリーズ)と同レベルです。このパフォーマンスは、政党や官公庁に代表されるトランザクション処理アプリケーションに十分です。」[9]

龙芯3A4000 / 3B4000

龙芯の次世代高性能プロセッサは、龙芯の最新のGS464EV(GS464v)微細構造を使用しています。 龙芯3A4000は依然としてST FD-SOI 28nmプロセスを使用していますが、メイン周波数は2.0GHzに増加し、全体的なパフォーマンスは前世代の3A3000の2倍になりました。[10]

龙芯3A4000 / 3B4000は4つのGS464EVコアを統合し、MIPS®リリース5命令セットとLoongISA®2.0自律型命令セットをサポートします。 龙芯3A4000のspec2006シングルコアベーススコアintおよびfpスコアは20ポイント、IPCは10ポイント/ GHzです。通常の消費電力は、1.6GHzで40W、1.8GHzで60W、2.0GHzで80Wで、動的周波数変調をサポートしています。 龙芯3A4000 / 3B4000は、256ビットのベクトルアクセラレータと、128 GFlopsのシングルチップ浮動小数点パフォーマンスを統合しています。

統合インターフェースはHT3.0 * 2、LPC、SPI、UART、GPIO、64ビットDDR4-2400MHz * 2であり、ECCをサポートし、安全で信頼できるデバイスをサポートします。
龙芯3A5000 / 3C5000

龙芯の次世代高性能は、2019年末または2020年初頭にストリーミング配信される予定です。3A4000プロセッサのマイクロ構造GS464EVは14 / 12nmプロセスで使用され、メイン周波数は2.5GHzに増加します。 3A5000は4コアプロセッサですが、3C5000は16コアプロセッサになります。

龙芯チップセットシリーズ

龙芯7A1000

龙芯7A1000タイプブリッジは、龙芯3プロセッサの最初のチップセット製品であり、AMD RS780(E)+ SB710チップセットを置き換えて、龙芯プロセッサにNorth-South Bridge機能を提供することを目標としています。主な機能は次のとおりです。

3A3000でマザーボードに統合された龙芯7A1000ブリッジの正面写真

統合16ビットHT3.0インターフェイス、コアGC1000 GPU、ディスプレイコントローラー、デュアルDVOディスプレイのサポート、16ビットDDR3メモリコントローラー、3つのX8PCIE2.0インターフェイス、各X8インターフェイスは2つの独立したインターフェイスに分割可能X4インターフェース。 2つのX4PCIE2.0インターフェイスは、6つの独立したX1インターフェイスに分割できます。 3 SATA2.0、6 USB 2.0、2 RGMIIギガビットイーサネットインターフェイス、HDA / AC97、RTC / HPETモジュール、1個のフル機能UARTコントローラー、6個のI2Cコントローラー、1個のLPCコントローラー、1個SPIコントローラー、複数のGPIOピン。

今後の龙芯3A4000はAMDのRS780チップセットを使用しなくなりますが、ブリッジの選択でAMDの影響を受けないようにするために、龙芯7Aはブリッジとして使用されます。
龙芯7A2000

龙芯の次世代のサポートブリッジとして、龙芯7A2000は、龙芯7A1000のアップグレードバージョンです。 7A1000と比較して、7A2000 PCIEコントローラーコードは龙芯によって作成され、PCIE Gen3です。 STの28nm FD-SOIプロセスを使用したGPUは、自社開発のGPUです。
LoongISA®

LoongISA®(LISA®)は、龙芯に登録された自律CPU命令セットです(MIPS®命令セット形式のMIPS®命令セットから拡張されています)。現在、LISA®には2つのバージョンがあり、それぞれLISA®1.0とLISA®2.0です。 LISA®は、龙芯の公式情報に基づいて取扱説明書を発行します。
龙芯は隠れたプロセッサーを発表しなかった

龙芯の第1、第2、および第3系列のプロセッサーに加えて、龙芯の開発中にいくつかの実験的プロセッサーが開発されており、大量生産はなく、スラグのないものもあります。そのようなプロセッサがいくつか見つかりました。
Godson-T

開発プロセスでは、龙芯プロセッサーはかつてスーパーコンピューターとして使用されていましたが、Godson-Tという名前の64コアマルチコアプロセッサーの開発を望んでいます。 Godson-Tは、コンピューティングアドバンストマイクロシステムズ研究グループによって開発され、RTL検証は2008年に実施されました。RTLコードは2008年12月に作成されました。 2010年5月、GodSon-Tのプロトタイプチップである16コアのGodSon-TIは、130ナノメートルプロセスで出荷されました。 2010年10月17日、試運転は成功しました。

龙芯がR&Dの焦点をプロセッサコアのパフォーマンスの向上に再び向けたため、Godson-Tプロセッサは廃止されました。

Godson-X

龙芯の大量生産プロセッサはすべて、MIPS命令セットを使用しています。ただし、x86命令セットは主流のデスクトッププロセッサ市場で使用されているため、龙芯は知的財産および特許にx86命令セットを使用できません。既存のエコシステムとの互換性を実現するために、龙芯3Aシリーズはx86用のバイナリ変換命令とarm命令を実装しています。開発プロセス中に、龙芯はx86命令セットを使用してプロセッサプロトタイプGodson-Xを開発しました。

このプロジェクトは2005年7月に始まりました。 Godson-Xプロセッサの元の設計は、x86命令と互換性のあるFPGAプロトタイププロセッサであり、FPGAプロトタイププロセッサでWindows XPを起動できます。そこで、最初のステップであるコンピューティングアドバンストマイクロシステムズ研究グループ、マイクロアーキテクチャーのGodson-Xを慎重に設計しました。 Godson-Xは、龙芯2設計に基づく4送信スーパースカラーX86プロセッサです。 x86と互換性があり、Intel MMX命令、SSE命令セット、x87浮動小数点命令をサポートしています。サイクルレベルのシミュレーションプログラムによる2番目のステップでは、プロセッサの各ビートの状態をシミュレートします。その後、コンピューティングアドバンストマイクロシステムズ研究グループはシミュレーターを使用してWindows XPを起動しようとしました。最後に、コンピューティングアドバンストマイクロシステムズ研究グループのRTL調整とFPGAシミュレーションの完了時間は2006年7月でした。プロセッサはFPGAプロトタイプであり、ストリーミングされたことはありません。

龙梦一号

中科龙梦(現在は航天龙梦と改名)は、龙芯の初期IPコアを使用して、Fiscalcontrollerレジスタ用の龙梦一号SOCを開発しました。税制のSoC専用チップは、MCUとして「龙芯一号」プロセッサコアを使用し、オンチップバスとしてAHB(Advanced High Performance Bus)+ APB(Advanced Peripheral Bus)を使用します。

GS32I-400 SOC

GS32Iは龙芯2に従って設計されたSOCチップで、周波数は400MHz、統合16Kデータバッファと16K命令キャッシュ、パッケージサイズ19mmx19mm、424ピンBGAパッケージです。内部インターフェイスには、統合PCIコントローラー、2つの100Mネットワークコントローラー、USB、AC97コントローラー、PCMCIAコントローラー、SDRAMコントローラー、EPROMコントローラーがあります。

プロセッサ仕様

シリーズ モデル 周波数
(MHz) アーキテクチャ
マイクロアーキテクチャ 年 コアの数 プロセス
(nm) トランジスタ
(百万) チップサイズ
(mm2) 力
(W) 電圧
(V) キャッシュ (KiB) ピーク浮動小数点パフォーマンス
(GFLOPS) 性能
[ SPEC CPU2000] 備考
最初のレベル(シングルコア) 第二レベル 第三レベル
データ 指令
Godson 1 266 MIPS-II 32-bit N/A 2001 1 180 22 71.4 1.0 不明 8 8 N/A N/A 0.6 19/25 [11]
FCR_SOC 266 MIPS-II 32-bit N/A 2007 1 180 不明 不明 不明 不明 8 8 N/A N/A 0.6 不明 [12][13]
2B 250 MIPS-III 64-bit N/A 2003 1 180 不明 不明 不明 不明 32 32 N/A N/A 不明 52/58
2C 450 MIPS-III 64-bit N/A 2004 1 180 13.5 41.5 不明 不明 64 64 N/A N/A 不明 159/114
2E 1000 MIPS-III 64-bit GS464 (r1)(原型) 2006 1 90 47 36 7 1.2 64 64 512 N/A 不明 503/503
龍芯1 1A 300 MIPS32 GS232 2010 1 130 22 71.4 1.0 不明 16 16 N/A N/A 0.6 不明 [14]
1B 266 MIPS32 GS232 2010 1 130 13.3 28 0.6 不明 8 8 N/A N/A 不明 不明 [15]
1C 300 MIPS32 GS232 2013 1 130 11.1 28.3 0.5 不明 16 16 N/A N/A 不明 不明 [16]
1C101 8 MIPS32 GS132R 2018 1 130 不明 不明 不明 不明 N/A N/A N/A N/A 不明 不明 [17]
1D 8 MIPS32 GS132 2014 1 130 1 6 3 × 10−5 不明 N/A N/A N/A N/A 不明 不明 [18]
龍芯2 2F 1200 MIPS-III 64-bit GS464 (r1) 2007 1 90 51 43 5 1.2 64 64 512 N/A 3.2 不明 [19]
2G 1000 MIPS64 GS464 (r2) 2012 1 65 不明 不明 不明 1.15 64 64 4096 N/A 不明 不明 [20]
2GP 800 MIPS64 GS464 (r2) 2013 1 65 82 65.7 8 1.15 64 64 1024 N/A 3.2 不明
2I
2H 1000 MIPS64 GS464 (r2) 2012 1 65 152 117 5 1.15 64 64 512 N/A 4 不明
2K1000 1000 MIPS®64 Release 2 LoongISA® 1.0 GS264E 2017 2 40 1900 79 5 1.1 32 32 256 × 2 1024 8 不明 [21]
龍芯3 3A1000 1000 MIPS®64 Release 2

LoongISA®1.0
GS464 (r2) 2009 4 65 425 174.5 10 1.15 64 64 256 × 4 N/A 16 568/788, シングルコア 2.4/2.3 (SPEC CPU2006) [22]
3B1000 1000 MIPS®64 Release2

LoongISA®1.0
GS464 (r2) 2010 4+4 65 > 600 不明 20 1.15 64 64 128 × 8 N/A 不明 不明 [23]
3B1500 1200–1500 MIPS®64 Release 2

LoongISA®1.0
GS464V 2012 4+4 32 1140 142.5 30(典型的な)
60(ベクトル) 1.15–1.35 64 64 128 × 8 8192 150 不明 [24][25]
3A1500-I 800–1000 MIPS®64 Release2

LoongISA®1.0
GS464E 2015 4 40 621 202.3 15 1.15–1.25 64 64 256 × 4 4096 16 シングルコア 6~7(SPEC CPU2006) [26]
3A2000
3B2000
3A3000 1500 MIPS®64 Release 2

LoongISA®1.0
GS464E 2016 4 28 > 1200 155.78 30 1.15–1.25 64 64 256 × 4 8192 24 1100/1700, シングルコア 11/10 & マルチコア 36/33(SPEC CPU2006) [27][28]
3B3000 GS464E
3A4000 1800-2000 MIPS®64 Release 5

LoongISA®2.0
GS464EV(GS464v) 2019 4 28 ? ? 40 @ 1.6GHz

60@1.8GHZ

80@2.0GHz
0.95-1.25 64 64 256 x 4 8192 128 シングルコア >20/>20 (SPEC CPU2006)(@2.0GHz)
3B4000 』

兆芯

兆芯
https://ja.wikipedia.org/wiki/%E5%85%86%E8%8A%AF

 ※ wikiで調べたら、「兆芯」と「龍芯」は、ちょっと違うようだ…。

 ※ どっちも、MIPS系のアーキテクチャに立脚している感じで、ライセンスもVIA系のものを持っていて、違いがよく分からん…。

 ※ そういうわけで、ともかくwikiに書いてあることを、貼っておく…。

『兆芯(ちょうしん、ザオシン、拼音: Zhào xīn、英: Zhaoxin)こと上海兆芯集成電路有限公司は、2013年に設立されたx86互換CPUの製造企業[1]。

2018年現在においてx86-64(x64)ライセンスを所有する3社(Intel、AMD、VIA)のうちの一つであるVIA Technologiesのライセンスを受け継いでいる。 』

『概要

兆芯は、VIA Technologiesと上海市政府のジョイントベンチャーによるファブレスの半導体会社である[2]。主に中国市場における組み込み用として、x86互換CPUであるZXシリーズを設計・製造している。SoCはLenovoのラップトップなどで主に採用され、中国の政府機関などで主に使われている。

2019年現在では廉価市場をターゲットとした組み込み向け製品をリリースしており、性能的にはせいぜい数年前のIntel Core i5と互角のレベルだが、近く(早ければ2020年中旬以降、おそらくは2021年)、2019年現在でコンシューマ最速とされるAMDと対抗できるレベルのハイスペックな製品をリリースしたいとの意気込みを社長は語っている[3]。

アーキテクチャとしてはセントール系のCPUコアにS3系のGPU(iGPU)が統合されたものである。中国の兆芯、台湾のVIA、アメリカのセントールのいずれが開発しているのかについては、中国の安全保障の問題(2010年代後半においては米中貿易戦争のためにアメリカ製品の中国への輸出を停止されるなどされており、中国で全てを自力開発することが求められている)もあってよく解っていない。 』

『ZXシリーズ

ZX(兆芯、英: Zhaoxin)シリーズは、2013年から兆芯が開発しているCPUのシリーズである[1]。

ZX-Cまでのコアは、VIAグループのS3社が開発したGPUであるS3 Chrome 640/645をVIAのチップセットに統合した「VIA VX11H」チップセットに対応し、S3 Chromeのグラフィック機能によりWindows10およびDirectX 11をサポートする。

ZX-D以降ではついにS3 ChromeがCPUに統合された。

ZX-D以降のCPUはパソコンやサーバーなどで使われる前提で、KX(開先、中: 开先、英: KaiXian)シリーズとKH(開勝、英: KaisHeng)シリーズがある。

それまでのVIAのx86互換CPUはIntel製品を下回る性能で、そのためVIAは2000年代後半以降、Intel製品と対抗できる性能が要求されるパソコン向けよりもソリューションの安定供給が重要視される組み込み向けビジネスにシフトしていった経緯があるが、2017年リリースのZX-Dにおいてはアーキテクチャの一新とともにIntel Atomと互角レベルにスペックを向上させ、同時にDDR4デュアルチャネル、USB3.1Gen1/Gen2、PCI-E3.0に対応するなど足回りを近代化させた。

KXシリーズはデスクトップ用CPUであり、マイクロソフト社よりWHQL認証を取得するなどWindows他各種OSに正式対応している。KHシリーズはサーバー用CPUであり、KXシリーズから内蔵GPUを省いたもので、ECCメモリなどに対応している。

ちなみに、ZhangJiang(张江)マイクロアーキテクチャ以降のコードネームは全て上海の駅名から採られている。

チック・タック戦略を取っており、マイクロアーキテクチャの刷新と微細化を交互に行っている。

2017年に行われたKX-5000(「チック・タック」の「タック」にあたり、VIAの既存のCPUのOEMではなく兆芯が初めて自力で開発したCPU)の製品発表会では、2013年の開発開始から2017年の量産まで9000人月と4年の歳月をかけて自力でx86互換CPUを開発するに至るまでの苦労が語られた[4]。

ラインナップ

「ZX-A」は、2013年にリリースされた兆芯の最初のX86互換CPUである。

CPUコアのアーキテクチャは、セントールのx86-64「コードネーム:Isaiah」マイクロアーキテクチャであり、VIA NanoのOEMとみられている。TSMCの40nmプロセスで製造されている。

「ZX-B」は、アーキテクチャはZX-Aと全く同じだが、FABが台湾のTSMCではなく上海市のHLMC(上海華力微電子)で製造されている。

「ZX-C」は、2015年にリリースされた。CPUコアは、ZhangJiang(張江)マイクロアーキテクチャを使っている。

ZhangJiangマイクロアーキテクチャはVIA QuadCore-EやVIA Eden X4で使われたIsaiah IIマイクロアーキテクチャをベースとしており、そこにAdvanced Cryptography Engine(ACE)によるAES暗号化をサポートするなど、いくつかの機能が付け加えられたものである。
4コア・2.0HzでTDP 18W以下と、そこそこの性能で低消費電力なことをアピールしている。TSMCの28nmプロセスで製造されている。

「ZX-C+」および「ZX-C+ Dual Die」は、2016年にリリースされた。

4コアのCPUをデュアルダイすることによって、最大8コアに対応。ネイティブ8コアではなくノースブリッジを介して接続することによるボトルネックがあることと、低消費電力・低性能というVIAのマイクロアーキテクチャの特徴をそのまま継承しているため、8コアと言っても性能は相当低い。

「ZX-D」ことZhaoxin KX-5000/KH-20000シリーズ、コードネーム「Wudaokou」(五道口)は、2017年にリリースされた[1]。

TSMCまたはHLMCの28nmプロセスで製造、x86-64アーキテクチャ、最大2.0 GHz、4/8コアCPUで、DDR4、PCI Express 3.0、USB 3.1 (Gen 1 and 2)、USB 2.0、SATA 3をサポートしている[5][6]。

VIA製CPUの伝統にのっとって、低コストと電力効率を念頭に置いて設計されており、Intel Atomと競合していると考えられている。

28nmプロセスでありながらSPEC CPU2006ベンチマークで22nmプロセスのIntel Atom(2013年発売のサーバ用Atom、コードネーム「Avoton」、Silvermontマイクロアーキテクチャ)と互角以上のスコアを叩き出したことが製品発表会でもアピールされた。

大手メーカーではLenovoのビジネス用PC「開天」シリーズ、上海儀電のオールインワンPC「Biens」シリーズ、Lenovoのサーバー「ThinkServer」シリーズなどで採用されている。
「ZX-E」ことZhaoxin KX-6000/KH-30000シリーズ、コードネーム「Lujiazui」(陸家嘴)は、2019年6月に量産が開始された[7]。

最大3.0GHz、4/8コア、TSMCの16nmプロセスによる製造。

KX-5000と比較すると、性能が2.0GHzから3.0GHzへと5割アップし、ワットパフォーマンスは3倍になった。

内蔵GPUは最大解像度4K、3基までのディスプレイ出力に対応。

開発元によると、競合製品としてはCore i5をターゲットにしているとのことで、SPEC CPU2006ベンチマークでIntel Core i5-7400(2017年発売の4コアCPU)と互角以上のスコアを叩き出したことが製品発表会でもアピールされた。

Zhaoxin KX-7000シリーズは2020年中旬以降に製造される予定。その時点での最新のプロセス(おそらくはTSMCの7nmプロセス)を用い、 PCIe4.0とDDR5に対応する予定。マイクロアーキテクチャが一新される予定。

CP
Uファミリ コードネーム 製造開始年 プロセスルール

(nm)
コア数 周波数

(GHz)
フィーチャー 備考
ZX-A[1][8] ? 2014[9] 40 ? Based on the VIA Nano X2 C4350AL[9]
ZX-B[1][8] ? Identical to ZX-A[9][10]
ZX-C[1] Zhangjiang

(張江)
2015[9] 28 4 2.0 AVX, AVX2 Based on the VIA QuadCore-E & Eden X4
ZX-C+[1] 2016 4/8 ? 35W[11]
ZX-D / KX-5000[1][5] / KH-20k[11] Wudaokou

(五道口)
2017 28[6] 4/8[6] デュアルチャネルDDR4[11]
PCI Express 3.0
USB 3.1 (Gen 1 and 2)
USB 2.0
SATA 3
SoC[11] Manufactured by TSMC
ZX-E / KX-6000[12] / KH-30k[11] Lujiazui

(陸家嘴)
2019 16[13] 4/8 [13] 最大3.0[13] DDR4[13]
PCIe 3.0[14]
SoC[11][13] ?
ZX-F / KX-7000[2] / KH-40k[11] ? 2021年

(予定)
7 (予定)[11] ? DDR5
PCIe 4.0[14]

SoC[11]

参照 』

IntelとAMDが輸出を禁止したロシアで代用される中国産x86チップとは?

IntelとAMDが輸出を禁止したロシアで代用される中国産x86チップとは?
https://gigazine.net/news/20220523-russia-use-chinese-cpu-kx-6640ma/

 ※ この局面で、「龍芯」(たぶん。上海兆芯集成電路有限公司が作っているとすれば、そのはずだ)の名前を聞くことになるとはな…。

 ※ 「4コア」「ベース周波数は2.1GHz、ターボ周波数が2.6GHz、L2キャッシュ4MB、熱設計電力(TDP)が25W」とか、「非力」極まりない…。

 ※ win11(TPMで弾かれるか)は愚か、win10も苦しいだろう…。

『2022年2月にウクライナへ侵攻したことを世界中から非難されているロシアは、IntelやAMDなど主要なプロセッサーメーカーから半導体製品の輸出および販売を禁止されています。そのため、ロシアでは新しいデスクトップPC向けCPUとして、中国産のx86チップの導入が進められているとのことです。

Российско-китайская компания выпускает материнскую плату на базе китайского чипа Zhaoxin / Habr
https://habr.com/en/company/selectel/blog/664258/

Export bans prompt Russia to use Chinese x86 CPU replacement • The Register
https://www.theregister.com/2022/05/19/export_bans_prompt_russia_to/

ロシアと中国に本社を持つ電子機器メーカーのDannieは、2022年5月に「MBX-Z60A」という新しいデスクトップPC用マザーボードを発売しました。このマザーボードは、台湾のVIA Technologiewと上海市が共同出資したチップメーカー・上海兆芯集成電路有限公司(Zhaoxin)が作ったx86チップをサポートするように設計されているとのこと。

MBX-Z60AはmicroATXフォームファクタで、小型PC向けのマザーボード。対応しているCPUはZhaoxinの「KX-6640MA」となっています。このKX-6640MAについて、PassMarkのベンチマークに登録されているテスト結果では、4コアCPUであることがわかっています。

ハードウェア関連ニュースサイトのCNX Softwareでは、KX-6640MAのベース周波数は2.1GHz、ターボ周波数が2.6GHz、L2キャッシュ4MB、熱設計電力(TDP)が25Wだとまとめられています。また、KX-6640MAは16nmプロセスで製造されており、16レーンのPCIe 3.0接続とUSB 3.0をサポートしているそうです

つまり、KX-6640MAは近年のスマートフォンに搭載されているチップと比べてもスペックは全く高くない、とロシアメディアのHabrは論じています。実際にPassmarkにおけるKX-6640MAの平均スコアは「1566」で、iPhone 12シリーズに搭載されたAppleのA14 Bionicチップが記録した「8543」に遠く及ばないスコアとなっています。

なお、サーバー向けプラットフォームでは、ロシア国内の半導体企業であるMSCT(Moscow Center for SPARC Technologies)が、「Elbrus」というブランドのプロセッサーをリリースしていますが、どうしても性能はIntelやAMDの製品より劣るようで、ロシア貯蓄銀行の技術部門であるSberInfraは「Elbrusのプロセッサーは、複数のワークロードをこなすにはメモリが不十分な上に遅く、コアも少なくクロック周波数も足りていない」と報告しています。さらにロシアでは、IntelやAMDのCPUが入手できない状況を打破すべく、Rostecという国営企業がオープンソースの命令セットアーキテクチャであるRISC-Vを採用したノートPC向けチップの開発に取り組んでいると報じられています。』

FTC、英アームの買収阻止へ 米エヌビディアなど提訴

FTC、英アームの買収阻止へ 米エヌビディアなど提訴
https://www.nikkei.com/article/DGXZQOGN0304I0T01C21A2000000/

 ※ 『エヌビディアの競合もアームの技術に依存しており…』…。

 ※ 『エヌビディアの競合』って、AMDのことか…。

 ※ GPUって、アームの設計技術を使っていたっけ…。

 ※ ちょっと、よく分からない…。

 ※ それよりも、「米連邦取引委員会(FTC)」というものは、こういう「海外企業の買収」に対しても、「差し止め」ができる権限を持つんだな…。

 ※ そのことに、ちょっと驚いた…。

『【ラスベガス=白石武志】米連邦取引委員会(FTC)は2日、米半導体大手エヌビディアによる英半導体設計アームの買収計画をめぐり、反トラスト法(独占禁止法)に基づき差し止めを求める訴訟を起こした。両社の統合は「競合する次世代技術を阻害する」などと主張した。アームを傘下に持つソフトバンクグループ(SBG)の戦略にも打撃となる。

【関連記事】
・AI半導体、覇権狙うエヌビディア アーム買収
・ソフトバンクG、英アーム売却発表 米エヌビディアに

FTCは訴状で、幅広い半導体メーカーに設計技術を供与するアームについて「半導体業界のスイスと呼ばれる」と指摘。エヌビディアの競合もアームの技術に依存しており、買収を認めれば「技術支配力を利用して競合他社を弱体化させる能力と動機を与える」と主張した。

競争が阻害されることで最終的には品質の低下や価格の上昇を招き、アームの技術を使った製品の恩恵を受けている「数百万人の米国人に損害を与えることになる」と指摘した。乗用車向けの運転支援システムや、クラウドサービスを支えるデータセンター向けCPU(中央演算処理装置)の競争などで悪影響を懸念しているという。

エヌビディアなどは2020年9月にSBGからアームを最大400億ドル(約4兆5000億円)で買収すると発表した。アームが保有する半導体の設計技術を手に入れ、人工知能(AI)の計算に使う省電力の半導体で競争力を高める狙いだった。業界では発表当初から「アームの中立性が失われる」との懸念が出ており、米クアルコムなどが反対していた。

提訴の是非を判断する採決に参加した4人のFTC委員は全員が買収阻止に賛成した。提訴に踏み切るまでの調査にあたっては、欧州連合(EU)や英国、日本、韓国の競争当局と緊密に連携したという。FTCは、訴訟は22年8月に始まるとしている。

エヌビディアは同日、「FTCの手続きが次の段階に進むにあたって、我々はこの(買収)取引が業界に利益をもたらし、競争を促進するものであることを示す努力を続ける」と述べた。同社の株価は前日比2.2%高で引けた。アーム側はコメントを避けた。』

マイクロアーキテクチャ (micro-architecture)

マイクロアーキテクチャ (micro-architecture)
最終更新日: 1999/05/27
https://atmarkit.itmedia.co.jp/icd/root/78/7205278.html

 ※ 漠然としたイメージはあったが、キッチリと「定義」を聞いたのは初めてだ…。

 ※ ちょっとウレシかったんで、貼っておく…。

 ※ 「CPUの設計者」視点なんだな…。

『マイクロプロセッサにおいて、命令を実行・処理するための内部的なアーキテクチャのこと。

命令セットアーキテクチャ(ISA)が、プログラマの側から見たプロセッサの構造を定義しているのに対して、

マイクロアーキテクチャでは、内部的なプロセッサの構造を定義する。

同じ命令セットアーキテクチャを持つプロセッサでも、さまざまなマイクロアーキテクチャが考えられる。

例えば、同じx86アーキテクチャのプロセッサでも、Intel社はもとより、各メーカーからも、マイクロアーキテクチャの異なるさまざまなx86互換プロセッサが開発され、販売されている。

 マイクロアーキテクチャでは、命令コードを実行するための内部的な構造を定義している。

たとえば、命令コードのデコード・実行に際して、マイクロプログラム方式を使うのか(CISC系のプロセッサに多い)、

ワイヤードロジック方式を使うのか(RISC系のプロセッサに多い)、

それともいったんRISC風の単純な命令に分解してから実行するのか、などといったものから、

パイプラインの機能と構成、

スーパーパイプラインやスーパースカラーアーキテクチャを使うかどうか、

使うならその構造はどうするのか、

命令実行ユニットや浮動小数点演算、

マルチメディア処理機能の実装やその構成方法、

レジスタリネーミングや分岐予測機能とその実現方法、

キャッシュの量とその構成、

バスインターフェイス、キャッシュインターフェイス、

割り込み機能、

そして実装に利用されるテクノロジなどとの兼ね合いによる機能の取捨選択(トランジスタ数やチップ面積、

使用するプロセス、消費電力、設計のためのツールや

人的・資金的リソースによる制限、他)など、

マイクロアーキテクチャレベルで考慮しなければならない事項は非常に多岐に渡る。』

Windows 11 on ARMの新たなx64相互運用機能「ARM64EC」。

Windows 11 on ARMの新たなx64相互運用機能「ARM64EC」。Armとx64コードを混合可
https://pc.watch.impress.co.jp/docs/news/1335247.html

 ※ この手の、「エミュレーター」や「ランタイム」「プラットフォーム」を、間に噛ませて、「マシン語の違いを吸収させる」という発想は、JAVAや.NETの時に、散々聞いた話しだ…。

 ※ 古くは、BASICが、そもそも「インタープリタ」方式だったからな…。

 ※ それが、「コンパイル方式」の一気に「実行ソース」を作成して、実行させる方式に、「速さ」では、到底敵わない…、ということだったハズだ…。

 ※ それが、また「蘇って来た」ということは、どんな「前提条件」の変化が、生じたんだろうな…。

 ※ IoTだと、一々「どっかと通信しながら、実行して行く」んで、「インタープリタ」方式との親和性が高い…、ということなのか…。

『ARM64EC(Emulation Compatible)は、Windows 11 on ARMに実装されたアプリケーションバイナリインターフェイスで、x64との相互運用性を実現しながら、Armのネイティブ速度でアプリケーションを実行できる仕組み。

 具体的には、アプリをARM64ECとx64のコードを混合した状態にできる。ARM64ECの部分はネイティブ速度で実行、x64のコードの部分はWindows 11 on ARMビルドインのエミュレーションで実行される。

 従来の「ARM64ABI」は、x64コードを含むことができないため、開発者はアプリをArm向けに再度コードを書き直す必要があった。そのため、サードパーティーのコードを含む場合などは、そちらの対応を待つ必要があった。

 一方でARM64ECは、呼び出しの規約やスタックの使用法、データアライメントなどはx64の方法に対応できる。これによってx64との相互運用を実現し、アプリケーション開発者は、まず小規模なソースコードの対応から始め、アプリケーションの性能に関わるもっとも重要な部分からArmネイティブに移行、そうでない場所は徐々にできるようになる。

 MicrosoftのOfficeのチームでも、x64のプラグインがシームレスに機能するよう、64bit版の「Office for ARM」でARM64ECを使用するとしている。』

インタプリタ
https://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%97%E3%83%AA%E3%82%BF

『歴史

インタプリタという手法、すなわち、「そのハードウェアが直接解釈するのではないプログラム」を受け取り、「プログラムで実装された抽象的な、あるいは仮想上のコンピュータで解釈実行する」というプログラムの実行法は、コンピュータが登場した時から、ないしそれ以前からある。

万能チューリングマシンは、「どんなチューリングマシンについても、それを模擬できるチューリングマシン」というもので、ある種のエミュレータないしインタプリタであり、考察されたのは電子式のコンピュータの誕生する以前である。

EDSAC(実用的な機能を持ったプログラム内蔵方式の世界初の電子計算機とされている)において既に、ある種のインタプリタが実装されていたことが記録に残っている。同機におけるプログラミングの技法が書かれた The Preparation of Programs for an Electronic Digital Computer の chapter 2 の § 2-22 Interpretive subroutines で説明されているが、複素数演算などのサブルーチンを明示的にサブルーチンとして呼ぶのではなく、通常の加減算などと同様の形式のプログラムをインタプリタで解釈してそれらのサブルーチンを利用する、というものである。また日本においても、パンチカードを入力としてパッチパネルの配線によるプログラミングで処理するような機械で、配線によってある種のインタプリタのようなものを実装し、パンチカードの内容をデータとしてではなくプログラムのように扱う、というような例があると言われている[5]。

最初の Lisp インタプリタはスティーブ・ラッセルが IBM 704 上に実装した。これにはエピソードがあり、ジョン・マッカーシーが「Lisp の論文」[6]で「数学的」に示したものだったのであるが、マッカーシー自身は実装できるものだとは考えていなかった。それを、論文を読んだ、院生であったラッセルが、実装可能だと言って数学的な記述から変換して機械語で実装してみせたという。[7][8]

1960年代には(現在のJavaなどと同様な)、プログラミング言語から中間表現にコンパイルし、それをインタプリタで実行する、というような手法も一般的になった(pコードマシンを参照)。』

 ※『インタプリタという手法、すなわち、「そのハードウェアが直接解釈するのではないプログラム」を受け取り、「プログラムで実装された抽象的な、あるいは仮想上のコンピュータで解釈実行する」というプログラムの実行法』…。

 ※ これが、「定義」か…。初めて、知ったよ…。

 ※ ちょっと、ゾクゾクするぜ…。これだから、止められん…。

NVIDIA、Armベースのデータセンター向けCPU「Grace」投入を表明

NVIDIA、Armベースのデータセンター向けCPU「Grace」投入を表明
現在のx86ベースのCPUと比較して10倍の性能を発揮

笠原 一輝2021年4月13日 02:00
https://cloud.watch.impress.co.jp/docs/news/1318150.html

『半導体メーカーのNVIDIAは、4月12日午前8時(米国太平洋時間、日本時間4月12日午前0時)から同社の年次プライベートカンファレンス「GTC 2021」を開催しており、同社のAIに向けた各種ソリューションなどに関して多くの発表を行っている。

 そのGTC 2021の最初のセッションとして開催された同社 CEO ジェンスン・フアン氏の基調講演では、新しいデータセンター向けのCPUとして、開発コード名「Grace」(グレース)と呼ばれる製品を2023年に投入することを明らかにした。

NVIDIAのGrace(右)を搭載したマザーボード、左のもう1つのチップはGPU(提供:NVIDIA)

 NVIDIAによれば、GraceはArm社が開発する新しいデータセンター向けのCPUコアIPデザイン「次世代Neoverse(ネオバース)」が採用され、CPUコア1つあたりの処理能力がSPECrate2017_int_baseベンチマークで300を超える性能を発揮する。

 また、NVIDIAがサーバーなどでGPUとGPUを接続するインターコネクトとして導入しているNVLinkの次世代版が搭載されており、キャッシュコヒーレントに対応したNVLinkを利用した場合、CPUとGPU間の帯域幅は900GB/秒、キャッシュコヒーレントを使わない場合には600GB/秒の帯域を実現する。

 さらに、メモリコントローラはLPDDR5に対応。メモリ帯域は500GB/秒となり、現状の2倍の帯域幅を実現するという。

 なお、このGraceとNVIDIAのGPUを組み合わせることで、現在のx86 CPUとNVIDIA GPUの組み合わせでディープラーニング(深層学習)の大規模なモデル(1兆パラメータを持つモデル)を学習させた場合に1カ月かかる処理が、10分の1のわずか3日に短縮できるとのことだ。

x86 CPUベースの「DGX A100」と比べ性能が10倍となるArm CPU「Grace」

 NVIDIAが発表したGraceは、同社が「次世代Neoverse」と呼んでいるArmのデータセンター向けCPUデザインIPを採用している。Armは2018年の「Arm Techcon 2018」で、同社のデータセンター向けCPUのデザインIPとなる「Neoverse」を発表しており、既に同社の顧客などで採用されている。

 NVIDIAは現時点で、その次世代Neoverseがどういうものなのかは明らかにしていないが、Armが先日発表したばかりの新しい命令セット「Armv9」に対応した、新しいデザインであることは想定される。

 ただし今回、NVIDIAはその次世代Neoverseの性能は明らかにした。それによれば、CPUコア1つあたりで、SPECrate2017_int_baseにて300を超える性能を発揮するという。具体的にCPUコアがいくつになるのかなどは明らかにしていないが、当然、CPUコアは多くのコアが実装される形になるので、マルチコア時の性能はもっと大きな数字になることが想定される。

 なお、公開されたGraceのダイ写真を見る限りは、CPUダイはモノリシックダイで、AMDのEPYCなどで採用されているようなチップレットや、MCMと呼ばれる1つのパッケージの中に複数のダイが実装される形にはなっていないようだ。

NVIDIA Graceの概要(出典:NVIDIA)

 NVIDIAによれば、Graceの開発ターゲットは、CPUとメインメモリが、GPUやGPUメモリに比べて帯域幅が十分ではないことを克服することにあるという。というのも、現状ではCPUおよびCPUに接続されているメインメモリとGPUを接続するインターコネクトは、メモリやGPUと比較して低速なPCI Expressになるので、そこに引っ張られてしまい、GPUがメモリにアクセスするのに十分な帯域幅が確保されない現状がある。

現在のx86 CPUとGPUは、プロセッサに比べると遅いPCI Expressで接続されているため、CPUに接続されているメインメモリからGPUへの帯域幅は十分ではない(出典:NVIDIA)

 そこでGraceでは、NVIDIAのGPUがサポートしている高速なインターコネクトであるNVLinkに対応し、さらにNVLinkの帯域幅をCPUとGPUで600GB/秒、さらにキャッシュコヒーレント機能を有効にした場合には900GB/秒という帯域幅を実現する。

 また、CPUのメモリコントローラはLPDDR5に対応しており、メモリ帯域幅は500GB/秒を実現する。それにより、GPUとCPUが4つずつ搭載されているシステムの場合、メモリからGPUへの帯域幅は2000GB/秒となり、GPUがメインメモリにアクセスすることがボトルネックにならず、本来の性能を発揮できるようになる。

 NVIDIAによれば、1兆パラメータという非常に複雑で巨大なAIモデルを利用すると、学習にかかる時間は、x86 CPU(AMD 第2世代EPYC×2)とNVIDIA GPU(A100×8)の組み合わせとなる現行製品のDGX A100では約1カ月となるが、Grace(×8)+NVIDIA GPU(A100 ×8)の組み合わせの場合は、わずか3日間で終わるという。性能はざっと10倍に向上するという計算になる。

8xGrace+8xA100はDGX A100(2x x86 CPU+8xA100)に比べて10倍の性能を発揮(出典:NVIDIA)

 Graceの製造委託先は現時点では未公表だが、NVIDIAによれば5nmプロセスルールで製造され、2023年に市場に投入される計画になっているとのこと。現在、Swiss National Supercomputing Centre(CSCS)やLos Alamos National Laboratory(ロスアラモス国立研究所)が、Hewlett Packard Enterprise社が製造するGraceベースのスーパーコンピュータを導入する計画で、2023年より稼働する予定になっている。

CSCSやロスアラモス国立研究所などにHPCが製造したスーパーコンピュータが2023年に稼働する(出典:NVIDIA)

Arm CPU+NVIDIA GPUがAmazon EC2インスタンスで提供開始、新DPUのBlueField-3は2022年第1四半期に投入

 2020年、世の中をあっと言わせたArm買収を発表したNVIDIAは、GraceのようなArmベースのソリューションを加速している。すでにArm CPUに対応したCUDAをリリースしており、Arm CPUを利用したディープラーニングの学習ソリューションの充実などを進めている。

 今回のGTCではAWS(Amazon Web Services)との提携が発表され、AWSが提供しているGraviton2プロセッサ(64ビットのArm Neoverseコアを利用したカスタムプロセッサ)を利用したAmazon EC2インスタンスに、NVIDIA GPUを利用したものが提供されることが明らかにされた。

 また同時に、「Arm HPC Developer Kit」と呼ばれるArm CPUに対応した開発キットも提供され、ArmベースのCPUを利用したディープラーニングの学習がより利用しやすくする。Graviton2+NVIDIA GPUのAmazon EC2インスタンスは2021年後半から提供開始される予定だ。

Arm CPU+NVIDIA GPUがAmazon EC2インスタンスで提供開始(出典:NVIDIA)

 またNVIDIAは、2020年に発表した、DPU(Data Processing Units)と呼んでいるソフトウェア定義型のSmartNIC「BlueField-2 DPU」の後継として、「BlueField-3 DPU」を発表した。

 BlueField-3ではArm CPUが16コアに強化され(BlueField-2は8コア)、ネットワークの転送速度も200Gb/秒から400Gb/秒へと引き上げられる。従来のBlueField-2 DPU向けにソフトウェア開発キットDOCAで作成したソフトウェアは、そのまま実行可能だ。

BlueField-3(提供:NVIDIA)

BlueField-3の概要(出典:NVIDIA)

NVIDIA、データセンターのソフトウェア定義型ネットワークインフラを実現する「DPU」のロードマップを公開~DPU版CUDAといえる「DOCA」を提供へ
https://cloud.watch.impress.co.jp/docs/news/1280964.html

 BlueField-3は、2022年第1四半期からの提供開始が予定されている。なお、2020年に発表されたBlueField-2は本日より一般提供が開始されている。BlueField DPUはDell Technologies、Inspur、Lenovo、Supermicroなどのシステムベンダーから提供されるとNVIDIAでは説明している。』

エヌビディアがCPU参入 アームと組みAI計算10倍速く

https://www.nikkei.com/article/DGXZQOGN09EBS0Z00C21A4000000/

『【シリコンバレー=佐藤浩実】米半導体大手のエヌビディアは12日、CPU(中央演算処理装置)に参入すると発表した。英アームの基本設計を利用し、2023年に米欧のスーパーコンピューターに搭載する。人工知能(AI)計算を10倍速くできる見通しで、米インテルの主戦場に切り込む。AIの進化を左右する「頭脳」を巡り競争が激しくなる。

12日に開いたAIイベントでCPU「Grace(グレース)」を発表した。エヌビディアのGPU(画像処理半導体)と一緒に使うと、AIを学ばせるための計算速度が最大10倍になり、1カ月かけていた計算が3日で終わるという。他社製CPUとの組み合わせでは、計算量が膨大になると処理の「詰まり」が発生して速度を上げられなかった。

エヌビディアの「グレース」

米ヒューレット・パッカードエンタープライズ(HPE)がエヌビディアのCPUを組み込んでスパコンに仕上げ、米エネルギー省のロスアラモス国立研究所とスイスの国立スーパーコンピューターセンターに納める。ともに23年の稼働予定で、新材料や気象研究などに使う。

AIの「大きさ」、1年で100倍に

GPUが主力のエヌビディアがCPUまで手掛ける背景には、AIの進化がある。例えば自然な文章を書くと話題になった言語AI「GPT-3」には、計算結果を左右する評価軸(パラメーター)の数が1750億ある。19年に発表した1世代前の「GPT-2」の117倍で、パラメーターが増えてAIが大規模になるほど必要な処理も増える。

【関連記事】
AIが「人間並み」の文章 画像、音声に次ぐ革新迫る

エヌビディアの担当幹部、パレシュ・カーリャ氏は「数年以内に100兆のパラメーターを持つAIモデルが出てくる」と指摘する。今回のCPUは「最も複雑なAI計算のボトルネックを解消するために開発した」とし、米インテルや米アドバンスト・マイクロ・デバイス(AMD)などの汎用CPUとは「直接競合しない」というのが公式な見解だ。

インテル株、4%下落

ただ、AIの活用は文章の要約や自動のコード生成、チャットボットなど様々な分野に広がっている。エヌビディアがCPUの領域に踏み出したことで、今後各社が競争する場面は増える。発表に伴い、12日の米株式市場でインテルの株価は前日終値比で4%、AMDは5%下がった。

CPUへの参入は20年9月に買収を表明したアームとの協業の深化も示す。グレースではアームが3月に刷新した新しい設計技術を採用した。エヌビディアのジェンスン・ファン最高経営責任者(CEO)は12日のイベントで「クラウドやスパコンでのアームの採用は始まったばかりだが、大きな成長のチャンスがある」と話した。両社は22年の買収成立を目指している。

一方でハイテク産業をめぐる米中対立は激しさを増しており、ソフトバンクグループからの買収が計画通り進むかは不透明だ。3月には米半導体装置大手アプライドマテリアルズによる旧日立製作所系KOKUSAI ELECTRICの買収が中国当局の承認を得られず破談になった。業界でも「アームの中立性が失われる」と反対の声が出ている。

【関連記事】
インテル超えのエヌビディア、革ジャンCEOが狙う盟主
インテル、「データの黒子」死守へ 自社ブランド構わず

半導体業界では需要見通しの誤りや天災、火事などにより、車向けを中心に需要に供給が追いつかない状態が続く。自動車各社が減産を迫られ、12日には米ホワイトハウスが供給網(サプライチェーン)の見直しについて議論する会議を開いた。こうした半導体の「量」の問題に加え、AI計算の頭脳をめぐる「質」の競争も激化している。

春割ですべての記事が読み放題
今なら2カ月無料!

春割で申し込む
https://www.nikkei.com/promotion/?ak=https%3A%2F%2Fwww.nikkei.com%2Farticle%2FDGXZQOGM11C1B011032021000000&n_cid=DSPRM1AR08_promo

無料会員に登録する
https://www.nikkei.com/r123/?ak=https%3A%2F%2Fwww.nikkei.com%2Farticle%2FDGXZQOGM010QT001022021000000&n_cid=DSPRM1AR07#free

ログインする
https://www.nikkei.com/login

漏れのある抽象化の法則

※ クロステックの「抽象化の破れ」の話し(「抽象化のやぶれ」というノーコード/ローコード開発の落とし穴 https://xtech.nikkei.com/atcl/nxt/column/18/00138/010800705/ )を検索してたら、当たった…。

※ 「抽象化の破れ」も、「漏れのある抽象化」も、たぶん同じことを言っているんだろうと、思う…。

※ 非常に参考になったんで、貼っておく…。

『1. 漏れのある抽象化の 法則について

  1. 自己紹介● 名前 – 橘田 隼一● TwitterID – hayabusa333● 興味があること – カーネルとか言語開発とか● 現在のお仕事 – テストプログラマー● 信仰 – Joel教
  2. 漏れのある抽象化の法則
  3. 漏れのある抽象化の法則 ● Joel Spolsky提唱 ● Fog Creek Software 創 業者 ● 人気ブログ Joel on Software
  4. 抽象化一度に注目すべき概念を減らすことおよびその仕組み
  5. TCP/IPIP● 信頼性のない通信方式TCP● 信頼性のある通信方式
  6. TCPはIPの上に実装されている
  7. 信頼性のない通信方式で信頼性のある通信を行う
  8. TCPはIPを使って通信を行っているが詳しいことを 知らなくても通信できる
  9. TCPはIPを使って通信を行っているが詳しいことを 知らなくても通信できる
  10. TCPはIPを抽象化している
  11. しかしLANケーブルが切れていれば繋がらない回線が重ければ、TCPは信頼性を確保できない
  12. 抽象化には漏れがある
  13. これが漏れのある抽象化の法則
  14. 漏れのある抽象化の法則自明でない抽象化はすべて、程度の差こそあれ、漏れがある
  15. 抽象化は失敗する。あるときは小さく、あるときは 大きく、漏れがあるのだ。 物事は悪くなるものだ。この漏れは、抽象化が行われているあらゆる場所で起こる。
  16. Joel の出した例
  17. 大きな二次元配列の要素を順番にたどるという単純な事でも、水平方向か垂直方向かで、「芝目」に依存してパフォーマンス特性が劇的に異なるこ とがある
  18. C言語で記載for(i = 0; i < 30000; i++){ for(j = 0; j < 30000; j++){ array[i][j] = 0; }}for(i = 0; i < 30000; i++){ for(j = 0; j < 30000; j++){ array[j][i] = 1; }}
  19. デモ
  20. この性能差はプログラム言語に よって出たものではなくOSやCPUによって現れたものである
  21. C言語は簡単である。ただしOSの特殊な振る舞い に目をつむれば
  22. OSは簡単である。 OS ただしCPUの特殊な振る舞いに目をつむれば
  23. あなたが日常使うことの90%は 1週間で学習できるが、残りの10%を知るためには2、3年かか るかもしれない
  24. 先ほどの例の理由を知るためには、C言語だけではなく OSの特性、メモリ管理、仮想化、CPUの挙動についても知らない といけない
  25. 漏れのある抽象化の法則にうまく対処する唯一の方法は、その抽象化がどのように機能し、それが何を抽象化している のかを学ぶことだ。
  26. そういうわけで、抽象化は私たちが作業する時間を節約してくれるが、私たちが学ぶ時間までは節約してくれないのだ。
  27. ネットワーク・サーバはプログラム言語で実装されている
  28. プログラムはOSやCPUの上で動いている
  29. 抽象化されている先を 知らなければ 問題は解決できない
  30. 問題を解決できるエンジニアになるためには全てを勉強する必要がある
  31. 我々が目指すエンジニア像は 漏れのある抽象化の法則の漏れを解決できるエンジニアで あるべきである
  32. ぜひ、漏れのある抽象化に だまされないで 漏れを解決できる人に なってほしい
  33. 参考書籍
  34. ご清聴ありがとう ございました』  
  35. ※ こっちも、非常に参考になったんで、貼っておく…。  子どもは何にも知らないの
     https://blog.practical-scheme.net/shiro/20070912-machine-language

『shi3zの日記 – マシン語を知らない子ども達
マシン語読みの言語知らず
アルゴリズムを知らない子ども達
コンパイラの中身を知らない子ども達
オシロスコープを知らない子供たち
元のshi3zさんのエントリが断定調で、一般論と具体論が混ざってることもあって 異論反論パロディが続出したようで。つい黙ってられなくて あちこちにコメントしてしまったけど まとめとく。

解釈が割れた点は:

元の論の対象となる「プログラムが書ける人」は一般の職業プログラマや趣味プログラマまで 含むのか、それとも抽象化の破れにいつも直面してそれを何とかしてしまえるような 一部のタフな人材を指してるのか。
元の論の「マシン語を理解する」は80386アーキテクチャ特有のバッドノウハウまで 理解してばりばりアセンブラを書き下せることを指すのか、それともストアドプログラム アーキテクチャ、MMU、特権命令、割り込み、コンテキストスイッチなどの現代の 代表的なマシンアーキテクチャを理解するということを差し、80386を持ち出したのは 単なる代表例にすぎないのか。
あたりかな。私は両方とも後者と取ったけど、別に解釈すれば異論が出るのがわかる。

ただ、どういう解釈をしても次のような意見が出てくることには首をひねる。

「抽象化はレイヤの積み重ねで、論理回路の下にも半導体があり、電磁気学や 量子力学を知る必要があり、と続いてゆくから程度問題にすぎない。結局「自分は 論理回路から知っているよ」という優越感ゲームにすぎないのでは」

そう思う人にはDaniel HillisのThe Pattern on the Stone (翻訳: 思考する機械 コンピュータ) を勧めとく。翻訳は読んだことが無いが、原書の内容はとても平易なので、 内容だけなら中学生でも理解できるだろう。

第1章は論理回路。第2章で論理演算と状態機械。第3章でプログラミング言語。 第4章でチューリングマシン。第5章でアルゴリズム。以降、暗号や並列計算、 機械学習などを扱う。これを読んだからってプログラムがかけるようにはならないし 紹介された個々の概念を理解したことにはならないけれど、少なくとも現代のコンピュータが どういう概念の積み重ねで出来ているかという構造がわかるようになっている。

で、第1章の論理回路なんだけど、Danny Hillisはここで「スイッチとランプ」 「棒とばね」「パイプと弁」などで論理回路を作って見せる。つまりデバイスが 何であろうと、1と0が表現できてそれを伝達する仕組みさえあれば、残りの全ては その上に構築できるということだ。もちろん物理的に実現可能な規模で現代の CPUを作ろうとしたら半導体以外では非常に困難だろうけれど、今後全く新種の デバイスが出現して物理層がごっそり置き換わったとしても、上の層に 変化はない (ちなみに量子コンピューティングになったらどうなるの、という話は ちゃんと同書の中にも出てくる)。

私は高周波回路も量子力学も苦手だったし、数百MHzのバスクロックに乗るパルスの 波形や数GHzのチップクロックの中を走る電子の雲がどうなってるかなんて 考えたくも無いんだけれど、それらがデジタル回路の抽象化の壁を越えてくる確率と 「高級言語」で書かれたプログラムのSEGVに出会う確率にはあまりに大きな差がある。 抽象化力を指標とすれば、論理回路は非常に強力で成功した抽象化であり、 一方現代の高級言語の多くはまだその域に達していないとも言える。

このような抽象化の壁の厚さの違いに自覚的であることにより、次のようなメリットがある。

学ぶものごとに優先順位をつけられる。たくさんの層があっても、 壁が分厚くなっているいくつかの層を重点的に学べば安定した足場が得られる。
良い抽象化と悪い抽象化の区別がつけられる。自分で抽象化を設計する時に、 自覚的に壁の厚さを選択できる。
抽象化力の違いを無視して相対化してしまう危険は上のメリットの裏返しだ。

あまりにたくさんの層があって全部は学べないから、とりあえず目の前の層を学んどいて、 漏れが出てきたらすぐ下の層、というふうに広げてゆくしかない、と思う。 でも時間に限りがあるから安定した足場までなかなか到達せず、いつも不安を抱えている
自分の設計した抽象化が良いのか悪いのか、判断基準が良くわからない。 また、与えられた問題に必要とされる抽象化の程度を判断できない。
なんだかんだで、ネタにマジレスな野暮だけど、せっかく書いたから貼っておく。

Tags: Programming, Assembly, Hardware』

インテル入ってない:アームが半導体巨人を倒すまで

インテル入ってない:アームが半導体巨人を倒すまで
アームはモバイル端末のほか、PCやクラウドでも使用が増えている技術の設計を手掛ける
https://jp.wsj.com/articles/SB10671388092954773957304587158144275503230

『By Christopher Mims
2020 年 12 月 15 日 09:47 JST 更新

――筆者のクリストファー・ミムズはWSJハイテク担当コラムニスト

***

 米半導体大手インテルが設計し製造したマイクロチップはかつて、ほぼ全てのパソコンやクラウドコンピューティングの中核をなすほど支配的だった。だがここ何年も、競合他社の後塵(こうじん)を拝している。そうしたライバルには無数のスタートアップ企業のみならず、時価総額が数兆ドル規模の企業も含まれており、インテルの牙城を崩すまであと一歩のところまできている。

 アップルは最近、自社の新型パソコンシリーズ「Mac(マック)」へのインテル製チップ搭載を終了すると発表した。自社の設計品に切り替えるという。インテル長年のパートナーであるマイクロソフトも、自社のタブレット端末「サーフェス・プロX」に独自のチップを搭載。グーグルは自社のスマートフォン「ピクセル」にクアルコム製、パソコン「クロームブック」にはインテル製のチップを使用しているが、内製化に取り組んでいるようだ。一方、韓国サムスン電子は20年にわたり独自チップを設計している。ただしインテル、クアルコム両社との提携は続けている。

 こうした動きの背景には、効率性がかつてないほど求められていることがある。アップルは今年、「ワット当たりの性能」について大いに喧伝した。この基準はバッテリーで動く機器にとって明らかに重要だが、世界の消費電力の1%を占めるクラウドコンピューティングにとってもしかり。このようなニーズを満たすため、電子機器メーカーは自社製品によりカスタマイズしやすいマイクロチップを選択している。車両を駆動するのに開発されたエンジンと同様に。

 カスタムメードのチップ製造で先頭を走るのは製造企業ではない。ほぼ全てのモバイル端末のほか、パソコンやクラウドサービスでも使用が増えている技術の設計を手掛けるのは英半導体設計大手アーム・ホールディングスだ。同社がマイクロチップの設計図をライセンス供与するハイテク大手やハードウエアのスタートアップは計500社余り。すでにスマホやタブレット端末、ノートパソコン向けプロセッサーの市場シェアは9割に上る。

 インテルは米アドバンスト・マイクロ・デバイセズ(AMD)と台湾の威盛電子(VIAテクノロジーズ)との長年の関係を除けば、他社にマイクロチップの設計図をライセンス供与しない。インテルはアマゾン・ドット・コムのような大容量のデータ処理を必要とする顧客のために、自社の高性能プロセッサー「Xeon(ジーオン)」をカスタマイズする。

 アームが供与するライセンスは特定のニーズに合わせ、同社のさまざまな「コア」を組み合わせることが可能だ。同社のレネ・ハース知財製品担当プレジデントによれば、気温観測など低電力の環境センサーのチップを作りたい顧客はコアが1つしか必要ないかもしれないが、超高速のクラウドサーバー向けプロセッサーには最大96コア必要になる可能性があるという。

アップルの新「MacBook」に搭載された独自チップ
PHOTO: DANIEL ACKER/BLOOMBERG NEWS

 社内に経験豊富で大きなチップ設計チームがあるアップルやサムスン、クアルコム、エヌビディアといった一部企業はあまり一般的でないタイプのライセンスを求め、独自に設計されたチップを製造する。それでもアームのエコシステム内にある。同じ「命令セット」を使用しているからだ。

 現時点でインテルの命令セット「x86」とアームの命令セットの特徴の違いは不鮮明だ、と指摘するのはアンディ・ファン氏だ。同氏はベテランエンジニアでチップ設計企業に助言を行う。アームの命令セットはインテルのとほぼ同じくらい大きく複雑化しているが、インテルは効率性を向上させた高性能チップの設計に注力しているという。

 両社にとって現在、処理速度と同じくらいカスタマイズが戦いの場となっているが、アップルが新「MacBook(マックブック)」に搭載した独自のチップ「M1」の評価基準は、アームベースのチップが非常に処理速度が速くなり得ることを示している。現在世界最速のスーパーコンピューターには富士通の開発したチップが搭載されているが、アームの技術に基づいている。

 電子機器メーカーはカスタマイズしたチップの製造をベストなファウンドリー(受託生産)企業から選べるし、最先端技術の大半はもはやインテルではなく、(ほとんどがアームの技術が基になる)チップを実際に製造している台湾積体電路製造(TSMC)やサムスンといったライバル企業に属している。

 ほかにも、インテルの領域に踏み込んでいる企業がある。画像処理半導体(GPU)と人工知能(AI)の市場を支配し、時価総額で現在最大の米半導体メーカーであるエヌビディアは、アーム・ホールディングスをソフトバンクグループから400億ドル(現金と株式)で買収することで合意している。規制当局の審査を通過すれば、業界史上最大の買収案件となる。

自社のタブレットPC「Surface Pro X」を紹介するマイクロソフトのパノス・パネイ最高製品責任者(19年10月)
PHOTO: MARK KAUZLARICH/BLOOMBERG NEWS

 アップル創業者のスティーブ・ジョブズ氏は2006年、同社がインテル製チップに切り替えると発表した。当時採用していたチップの製造元であるIBMが追いついてこられなかったためだ。インテルは10年以上にわたり、パソコン・サーバー向けチップの消費電力と効率性で業界トップを走り続けた。

 だが同時期にインテルは致命的なミスを犯した。当時のポール・オッテリーニ最高経営責任者(CEO)は、「iPhone(アイフォーン)」に搭載するチップを製造してほしいというアップルの依頼を断ったのだ。アップルはアームの設計に基づいて独自チップの開発に乗り出し、2010年に発表されたiPhone4に初めて搭載された。産声を上げたばかりのモバイル業界の他企業もすでにアームの技術を採用しており、アーム支配の流れに向かっていった。

 スマホ革命が起きなければ、インテルは今でも中央処理装置の市場を握っていた、とハイテク分野の調査会社ムーア・インサイツ・アンド・ストラテジーのパトリック・ムーアヘッド社長は語る。

握手するアップルのスティーブ・ジョブズCEO(左)とインテルのポール・オッテリーニCEO(06年1月)
PHOTO: PAUL SAKUMA/ASSOCIATED PRESS

 このような戦い――インテルの垂直統合的アプローチとアームのより柔軟な戦略――はクラウド、厳密に言えば、データセンターでも繰り広げられている。クラウドサービス最大手アマゾンの「アマゾン・ウェブ・サービス(AWS)」は独自に開発したアームチップを使っている。インテル製と比べ、クラウドアプリの性能が40%上回り、コストも20%低いとしている。

 にもかかわらず、インテルのクラウドサーバー向けチップ需要は衰えていない。2020年9月までの1年間の売上高は前年同期比11%増の781億ドルだった。新型コロナウイルスの世界的流行によりパソコンとサーバーの需要が爆発的に増えたおかげで、同期間の増収率は何年かぶりの大きさだ。同社はこの勢いに乗じて新規ビジネスへの参入をもくろんでいる。そうした分野にはGPUやAIトレーニング、5G(次世代通信規格)ネットワーキング、自動運転が含まれる。ロバート・スワンCEOは、同社がもはやパソコン・サーバー市場の支配に重点を置くべきではなく、「あらゆる半導体製品」のシェア3割を目指すべきと繰り返し述べている。

マイクロ・マジックが発表したRISC-Vコア(2日)
PHOTO: MICRO MAGIC|, INC.

 一方のアームは、今後も事業拡張を続けたいなら現状にあぐらをかいてはいられない。カスタマイズと費用効率の高い製造オプションを約束してインテルから顧客を奪ったように、今度は新たなスタートアップに脅かされる立場になりかねない。そうしたスタートアップの一つが、カリフォルニア大学バークレー校が開発した「RISC-V(リスクファイブ)」だ。設計が簡略化されていることで、「ワット当たりの性能」という今では不可欠な基準において有望な結果が最近示されている。だが最大のウリはオープンソースであることだろう。アームとは異なり、RISC-Vの命令セットを無料で利用できるのだ。

 中国ハイテク大手アリババグループはRISC-Vベースのチップを発表した。米トランプ政権下で欧米の技術や知財を取得するのが困難な他の中国企業も関心を寄せている。

 一方、インテルが成長し続けることができるかどうかは、製造で再び追いつけるかにかかっているかもしれない。さまざまな試みがうまくいかなくても、インテルが巨大なエコシステムを持つことができれば、それによってもたらされる勢いはこの先何年も同社が重要な企業であり続ける一助となることは間違いないだろう。また、あらゆる種類のプロセッサーの需要が爆発すれば、最も強力なライバルさえ、インテルを締め出すのに十分な供給を行うことは難しいかもしれない。』

半導体設計メーカーのArmがライセンス料の4倍値上げを要求か

https://gigazine.net/news/20200716-arm-price/

独占:アームは一部の顧客のためにチップ技術の価格を引き上げると情報筋は言う
https://www.reuters.com/article/us-softbank-group-arm-exclusive/exclusive-arm-raises-prices-on-chip-technology-for-some-customers-sources-say-idUSKCN24G1RM

『(グーグル翻訳文)
(ロイター通信)-ソフトバンクグループが所有する(9984.T)半導体技術サプライヤーであるArm Ltdは、最近の交渉で一部の顧客のライセンス料を引き上げようとしていると、この件に詳しい4人がロイターに語った。
Armの営業担当者は最近の会談で、一部の顧客のライセンス全体の費用を最大4倍に引き上げる価格引き上げを強く求めていると、この問題に詳しい2人は述べています。

ライセンスコストはさまざまですが、複雑なコンピューティングコアなどの重要な設計には数百万ドルかかる場合があります。引き上げにより一部のライセンシーは非アーム代替案を検討するよう求められ、2人がロイターに非公開交渉について話し合うよう匿名性を要求したと語った。

Armは価格交渉についてコメントしないと述べた。

同社は、Marvell Technology Group(MRVL.O)などの顧客がデータセンターなどの新しい市場に参入できるように、新しいテクノロジーに多額の投資を行ってきました。昨年、アームは「フレキシブルアクセス」プログラムを開始し、顧客は先行技術コストを抑えながら幅広いテクノロジーにアクセスできるようになりました。

アームは、チップ内の知的財産を供給する最もアップル社(からのものも含め、世界のスマートフォンの電源AAPL.O)と、サムスン電子のCo株式会社(005930.KS)。それは、他の市場の中で、自動運転車とネットワーク技術のためのチップに拡大しています。

SoftBankは2016年にイングランドに本拠を置くArmのケンブリッジを320億ドルで購入し、これまでで最大の購入となりました。

ウォールストリートジャーナルは今週、ソフトバンクがアームの完全または部分的な売却を含む代替案を検討するためにゴールドマンサックスグループインクを雇ったことを今週報告しました。SoftBankの最高執行責任者Marcelo Claureは、火曜日にここフィナンシャルタイムズに、SoftBankがチップ会社から「ほとんどの価値」を認識したときにArmは上場すると発表しましたが、 」

チップ企業の25%が銀行の968億ドルのビジョンファンドによって保有されているため、アーム上場の結果はSoftBankにとって非常に重要になる可能性があります。ソフトバンクの最新の財務によれば、ファンドの投資額は3月31日現在で173億ドルの損失でしたが、2019年末の7,273億円(68億ドル)の損失額と比較しています。ビジョンファンドの減少は、 Uber Technologies Inc(UBER.N)およびWeWorkとして。

チップ設計者がArmのテクノロジーにアクセスするために支払うライセンス料は、収益の成長を牽引しています。このような収益は、直近の会計年度で6.4%増加して5億8,200万ドルになりましたが、Armテクノロジーで作られたチップのロイヤルティからの収益は1.5%減少して10億8千万ドルになりました。

SoftBankは部分的にArmを買収し、信号機から冷蔵庫までの日常的なデバイスがインターネットに接続することが期待されるモノのインターネットまたはIoTで期待されるブームを利用しました。

しかし、IoTでは、チップ設計者に低価格を請求するライバルや、チップ設計者自身が無料で使用できるRISC-Vと呼ばれる「オープンソース」テクノロジーとの競争に直面しています。調査会社のIDCによると、新しいコロナウイルスのパンデミックによって、IoTへの支出計画も鈍化している。

先週、Armは2つのIoTソフトウェア事業をスピンオフしてSoftBankに戻り、コアチップテクノロジーに焦点を当てました。

IoTの収益は競争と経済的な逆風に制約されているため、Armは、より複雑なチップで使用されるテクノロジーの価格を引き上げることになりました。

「それは私たちにとって多くの緊張を引き起こしました」とあるアームのライセンシーはロイターに語り、技術の向上と釣り合いが取れていないように思われたと語った。

サンフランシスコのスティーブン・ネリスによる報告。グレッグ・ミッチェルとリチャード・チャンによる編集

当社の基準:トムソン・ロイター・トラスト原則。』

 ※ まあ、「商法」だ…。くり返し使われて来た「手口」だ…。
 ある程度の期間は、「お安く」提供して、「競合他社」が価格競争に敗れて、「死んだ」ら、それを見計らって「値段を上げて行く」…。
 x86系は、十分に「死んだ」と、判断されたんだろう…。
 (インテルから、ぼろぼろ「キー・エンジニア」が脱出しているからな…。そういう点では、「会社」「企業」は、「死んでも」、「セル(細胞)」の系譜は、生き続ける…)。
 ただ、こういう「テクノロジー」系の競争には、「ゲーム・チェンジ」「プラットフォームの大転換」が絡む…。
 今回のは、IoTにおいては、「高性能」よりも、「低電力消費」の方が、重要視されるという「大転換」があった…。


 x86系は、そこを乗り損なった…。


 まあ、栄枯盛衰、諸行無常、盛者必衰の理(ことわり)だ…。
 ARMの先行きも、知れたものじゃ無い…、ってことだ…。
 既に、RISC-Vとか、そういう「萌芽(ほうが)」が見えている…。

HT(ハイパー・スレッド)の話し…。

※ 以下の投稿は、例によってオレ個人の興味と関心に基づくものだ…。自分の「備忘録」用として、貼っておく…。興味も関心も無い人は、スルーしてくれ…。

ハイパースレッディング・テクノロジー
https://ja.wikipedia.org/wiki/%E3%83%8F%E3%82%A4%E3%83%91%E3%83%BC%E3%82%B9%E3%83%AC%E3%83%83%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0%E3%83%BB%E3%83%86%E3%82%AF%E3%83%8E%E3%83%AD%E3%82%B8%E3%83%BC

『現在のパソコンに使われるCPUはCISCと呼ばれるものが主流で、多くは一つのコアにコードを読み込み(ロード)、解釈(デコード)し、処理をスケジュールする装置を一つと、それを処理するパイプラインと呼ばれる演算装置を複数持っている。しかしスケジュールの能力に限りがあるため、例えば整数を処理するパイプラインが働いていても、浮動小数点やMMXなどのマルチメディア計算をするパイプラインが空いていることがある。

そこで一つのコアに搭載しているデコードやスケジュールをする装置を複数に増やし、一つのコアを論理的に複数のコアとして動作させることで、空いているパイプラインを埋めて効率を向上させることが考えられた。

ただしコードやデータの間にはお互いに依存関係があり並行処理できない場合がある。また複数の論理的なコアは一つのL2キャッシュを共有しておりデータやキャッシュ不整合が発生した場合はロックがかかり効率が低下する。

コアはキャッシュに対し速度が遅いメインメモリーの入出力が必要になるとパイプラインが空いていても処理できない。最近のCPUは処理するコードやデータの量がL2キャッシュの容量を超えるほど肥大化しメインメモリーの入出力が必要な場合が増えているため、メモリーコントローラーをチップセットではなくCPU自体に内蔵させてメインメモリーの入出力速度を向上させている。』
『ハイパースレッディングが特に有効なのは、整数処理と浮動小数点処理やマルチメディア処理というように異なるパイプラインを多用するソフトウェアである。殆どのソフトウェアでは論理部分の大半は整数処理であり、浮動小数点処理と多重化できる可能性が高い。

しかしマルチメディアでデータ量が大きくなると、ハードディスクやメインメモリーの頻繁な読み書きが必要となり効率が低下する。またデータのサイズがバラバラの場合は規則正しくロードすることができない。

従ってハイパースレッディングで効率が良いのは、比較的小さなサイズの整数処理のコードと、データサイズが小さい、もしくはデータサイズが大きくても配列が規則的な浮動小数点処理やマルチメディア処理の繰り返しが並行して行われている場合である。』
『一方苦手とするのは、例えばWindowsやLinuxのように雑多なDLLやライブラリー類が頻繁かつ非同期的にコールされ、またコードやデータが頻繁に更新される、いわゆるローカリティが低い場合である。この場合、複数のスレッドでCPUのデータ幅やL2キャッシュが細分化され(スラッシング)、ハイパースレッディングによって逆に効率が低下することもある。

そのため、ハイパースレッディングによって多くのユーザーが不満を持つソフトウェアの立ち上がり時間が短縮されないのはこのせいである。一方、音声や動画の変換や編集ではハイパースレッディングの効果が高くなる。通常入力データサイズが規則的なデータ圧縮のほうが入力データが不規則なデータ解凍より早くなる傾向がある。』
『ハイパースレッディングの利点として、もともと複数の物理的コアを利用できる対称型マルチプロセッシング対応のOSでは、特にソフトウェアを改変することなくハイパースレッディングによる複数の論理的コアを利用できることである。

すなわちハイパースレッディングはソフトウェアを改変せず利用できる透過性があることが特徴である。もちろんハイパースレッディングを意識した処理として実装しているかどうかによって効率は変化する。

なお、処理中のコードやデータを自ら書き換えていくような特殊なソフトウェアや、複数のスレッドが強い依存関係を持つ場合は効率が低下したりエラーとなることがある。また論理的コア同士の間でデータの秘匿に問題があるなど、ごく限られたケースながら問題が生じることがある。このため、多くのPCではBIOSなどでハイパースレッディングをオフとすることができるようになっている。』

1コアを2スレッド動作させる、HTテクノロジー
http://www.pasonisan.com/customnavi/z1012_cpu/03ht.html

※ この図が、分かりやすい…。ハイパー・スレッドの発想は、「パイプライン」をギッシリ埋めたら、それだけ処理の量が増加して、処理速度が速くなる…、というものだ…。スレッドを流し込む回路を、2本に増やして、空いているパイプラインに送り込もう…、というものだな…。

※ 実コア4個の場合で、説明している…。「HTなし」だと、右側の図の通り、パイプラインに「空き」が生じている…。これを「HTあり」にすると、その実コアのパイプラインの空いているところに、「処理命令(演算命令)」を流し込んで、「隙間なく」稼働させることができている…。それで、「処理量」全体としては、「4コア」+「4HT」で、あたかも「8コア」に匹敵するようなパフォーマンスが発揮できる…、というわけだ…。

※ そういう芸当を可能にするテクノロジーが、この図…。各「命令」には、「ID」が付されており、どこの「パッケージ」のどの「コア」で処理すべきなのか、指示している…、というわけだ…。

※ こういう「フラグ」が立てられている図は、インターネットの「TCP・IP」でも、見たな…。また、「VPN」のところでも見た(VPNは、TCP/IPの応用だから、当然と言えば当然だ…)。

※ まあ、同じような「発想」と言っていいんだろう…。

※ 実は、完全に「誤解」していた…。ハイパー・スレッドは、OSの「マルチタスク」における「アイドリング」状態を利用して、その状態に「スレッド」を発行して、OSレベルで騙すテクノロジーだ…、と理解していた…。

※ どこで、そう理解したのか…。何か、そういう文献でも読んだのか…。今となっては、分からんな…。

※ これだから、世の中恐ろしい…。一旦、「分かった」つもりになっていても、どこでどう「誤解」しているものか、知れたものでは無い…。

※ 何事も、「虚心坦懐」に、「一から学ぶ」という姿勢を忘れないようにすることが、大切だ…。

〔「Ryzen」のキモは、「SenseMI」…。〕

 ※ 以下の投稿は、全くの個人的な興味と関心に基づくものだ…。自分用の勉強と、「覚え書き」のための資料として、貼っておく…。
 というのは、最近、「PC自作屋界隈」では、「AMD」や「Ryzen」の人気が、にわかに盛り上がり、それで自分のシステムを組む人とか、BTO業界でも「ゲーミングPC」とかを販売したりする例が、増えて来ている…。
 それで、「Ryzen」のアーキテクチャには、ずっと興味があった…。「AMD、Ryzen CPUを搭載したSummit Ridgeをクレスト」の記事は、その一端を解説している…。
 そういうことで、「なーる…。そこが、キモなのか!」「分かったぞ!」と、ちょっとウレしくて、投稿にした…。
 だから、「AMDって、何?」「Ryzenって、何?」な人は、スルーしてくれ…。

アドバンスト・マイクロ・デバイセズ
https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%89%E3%83%90%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BB%E3%83%9E%E3%82%A4%E3%82%AF%E3%83%AD%E3%83%BB%E3%83%87%E3%83%90%E3%82%A4%E3%82%BB%E3%82%BA

Zen (マイクロアーキテクチャ)
https://ja.wikipedia.org/wiki/Zen_(%E3%83%9E%E3%82%A4%E3%82%AF%E3%83%AD%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3)

AMD、Ryzen CPUを搭載したSummit Ridgeをクレスト
https://techreport.com/review/31105/amd-crests-summit-ridge-with-ryzen-cpus/

(※グーグル翻訳文)
『これをお読みになると、AMDのNew Horizo​​nイベントが始まり、サーバーとデスクトップ向けの同社の次世代ハイエンドCPUに関する詳細が明らかになります。しかし、私たちはあなたよりはるかに先を行っています。先週、カリフォルニア州ソノマで開催されたAMD Tech Summitで、Ryzenシリコンを少し覗きました。はい、このハイエンドチップを初期の段階から導入したZenの名前はもはや存在しません。代わりに、デスクトップ用のZenパーツ(以前のコード名はSummit Ridge)を出荷すると、Ryzenという名前が付けられます。最近のReLiveソフトウェアアップデートの名前のように、 Ryzenはいくつかの異なる方法で発音できますが、AMDは「rye-zen」を支持しました。フェニックスのようなものです。』
『Ryzenの要点を説明する前に、AMDが赤ちゃんについて共有している新しい詳細のいくつかを最初に確認する必要があります。同社は、Ryzenの最上位製品には、3.4 GHzのベースクロックで実行される8つのコアと16のスレッドがあることを確認しました。これらのコアには、4MBのL2キャッシュと16MBのL3キャッシュがあり、パッケージ全体で印象的な95W TDPを備えています。AMDはまだRyzenのブーストクロックを公開する準備ができていませんでしたが、戦車には十分な余裕があったと確信していたようです。

また、Ryzenシリコンの健康状態についてのある種のチェックを見る必要がありました。AMDはIDFでのプレビューイベントの際と同様に、一般的なデスクトップワークロード(この場合は、Handbrakeビデオトランスコーディングツール)を実行する8コア、16スレッドのRyzenを示しました。今回、同社は、Ryzenエンジニアリングサンプルを3.4 GHzで実行するように設定しました。ホブリングされていないCore i7-6900Kに対するブーストはありません。前回AMDがこのような直接比較テストを実行したのは、3 GHzに制限されたi7-6900Kに対するものであったことを思い出してください。TDPが普遍的または相互比較可能な数字ではない場合でも、i7-6900Kが140W TDP CPUであることに注意するのも楽しいです。』
『ブレンダーCPUレンダリング中のRyzenのピーク電力消費

どちらのテストシステムの正確な詳細もわかりませんが、Ryzen PCはAMDのサンプルワークロードをi7-6900Kより数秒早く完了しました。おそらくより励みになるのは、AMDが完全なBlenderの負荷の下でこのRyzenサンプルのいくつかの消費電力を示し、それらはBroadwell-Eチップとほぼ同じであったことです。そのパフォーマンスは、Ryzenの速度には高電力料金が付いていないことを示唆しており、それは心強いニュースです。』
『AMDは、Ryzenの内部機能に関する興味深い詳細も明らかにしました。他の最近のAMDチップと同様に、Ryzen CPUには、チップの動作条件に関するリアルタイムの情報を中央プロセッサに提供する、熱センサーと電圧センサーのネットワークがダイ全体に散在しています。ブリストルリッジAPUとポラリスGPUにはすでにこれらのセンサーネットワークが搭載されていますが、簡単に参照できるように、AMDはこの監視ハードウェアネットワークを「SenseMI」と呼んでいます。』
『SenseMIは、チップ間のばらつきを考慮しない所定の安全マージンで焼き付けるのではなく、動的電圧および周波数スケーリングカーブの最適なポイントで特定のRyzenチップを実行できるようにします。この適応技術により、チップはより低い電圧で特定の周波数で動作し、効率を向上させることができます。これはAMDが「ピュアパワー」と呼ぶ機能です。SenseMIは、ブーストクロックをダイヤルインするときに、所定のチップに潜在的な周波数オーバーヘッド全体を抽出させることもできます。これは、AMDが「プレシジョンブースト」と呼ぶものです。』
『SenseMIは、「拡張周波数範囲」またはXFRと呼ばれる興味深い新機能もサポートしています。SenseMIは、Precision Boostフィードバックループを使用して、ビルダーがRyzen CPUにインストールする冷却ソリューションの効果を監視します。おそらく、レイスクーラーまたは同様のヒートシンクを取り付けると、Ryzenチップは標準のブースト範囲に到達できます。ただし、モンスタータワークーラーまたはクローズドループの液体クーラーをRyzen CPUの上に置くと、チップは追加のサーマルヘッドルームを自動的に利用して、指定された範囲を超えてブーストできます。冷却ソリューションが強力であればあるほど、Precision Boostが押し上げる能力が高くなります。十分に単純です。』
『AMDは、現代の高性能CPUアーキテクチャの珍しい一歩として、Ryzenブランチプレディクタの詳細についても話し合いました。同社は、最新のCPUでニューラルネットワークを利用した予測アルゴリズムを使用していると述べています。その説明はマーケティングの綿毛のように聞こえるかもしれませんが、効果的な分岐予測はすでにシステムを学習しており、ニューラルネットワークは現在ホットなトピックですが、流行語にとらわれるだけではありません。AMDシニアフェローのマイククラークはザレジスターに、Ryzenは今年初めのHot Chipsカンファレンスでハッシュされたパーセプトロンアルゴリズムを使用すると語った。一方でパーセプトロンは、基本的なニューラルネットワークであってもよい、それはまだ、ニューラルネットワークです。

簡単なGoogleは、パーセプトロンを利用した分岐予測子のアイデアはチップ設計において新しいものではないことを示唆していますが、これらのタイプの予測子は非常に正確なパフォーマンスを提供するように見えます。これは、どのCPUにとっても朗報です。AMDの従業員との私の会話は、今後のブリーフィングでこのトピックについてさらに学ぶことを示唆しているので、今のところピッチフォークに立ち向かうことができます。AMDはまた、Zenの「スマート」データプリフェッチャーを売り込んでいますが、CPUパフォーマンスのこの重要なコンポーネントを改善するために何をしているのかについては何も示唆していません。それについての説明も待つ必要があると思います。

Ryzenがこれらの約束を果たすことができれば、AMDはゲーム用PCの世界におけるいくつかの好ましいトレンドをサーフィンする可能性があると考えています。同社は、ゲームハードウェアの市場は2015年から2018年にかけて25%の急成長の真っ只中にあると予測しており、VR PCの市場は特に今年は100万台未満から2020年には1000万台以上に成長すると予測しています。Dota 2やLeague of LegendsなどのeSportsタイトルの人気の高まり、およびTwitchストリーミングの爆発的な人気は、すべて、新規および既存のゲーマーが新しいハードウェアへのアップグレードを検討している可能性があることを示唆しています。これらのPCがRyzen CPUとRadeonグラフィックスカードを中心に構築されている場合、AMDは収益拡大のために非常に必要とされているショットを楽しむことができます。

Ryzenハードウェアを使用できるようになるまでには、少し時間がかかりますが、AMDはこのCPUファミリとそのパフォーマンスに関する楽観的な理由を引き続き提供しています。先週の同社のデモンストレーションでは、Ryzen部品は、パフォーマンスとワットあたりのパフォーマンスの両方の観点から、Broadwell-Eチップと競合する可能性が最も高いことが示されました。AMDが3.4 GHzのベースクロックでのみ動作するエンジニアリングサンプルでそのパフォーマンスを達成したという事実は、マルチスレッド化されていないワークロードでも、これらのチップからさらに多くのパフォーマンスを引き出すことができることを示唆しています。XFRなどの機能は、強力なクーラーでRyzenを使用することを計画している愛好家にとって、おそらくさらに優れたパフォーマンスの報酬を約束します。すべて手動のオーバークロックの頭痛はありません。』

Macのプロセッサー、自社開発 アップル

Macのプロセッサー、自社開発 アップル、来年までに計画と報道
https://this.kiji.is/626152012670829665

『【ニューヨーク共同】米ブルームバーグ通信は23日、米アップルがパソコン「Mac(マック)」に、頭脳を担うプロセッサーを自社開発して搭載し、来年までに発売することを計画していると報じた。スマートフォン「iPhone(アイフォーン)」では既に自社開発しており、基盤技術の共通化でアプリ市場の拡大を促進する。

 米インテル製から徐々に移行する。独自開発により、他社製パソコンとの性能の違いを出し、新製品の発売サイクルも短縮しやすくなるという。自前開発品はノートパソコンの入門機種から搭載する見通しだ。』

アップルが描く「インテルなき未来」と、見えてきたいくつもの課題(2018.04.08)
https://wired.jp/2018/04/08/apple-quitting-intel-processors/

『ブルームバーグのガーマンによると、アップルは10年以上にわたってMacに搭載されていたインテルの「x86」シリーズを、iPhoneと同じ「ARMアーキテクチャー」のチップに変えようとしている。ただ、ここには少なくとも2つの難題がある。

まず、プロセッサーそのものに関する技術的なことだ。ARMアーキテクチャーは効率には優れているが、パワーはインテルの上位クラスのチップにはるかに及ばない。Macへの独自チップの採用は早くても20年になると言われているが、業界専門家はそれまでにARMの半導体がインテルに追いつくか疑問を呈している。

ハイテク分野のコンサルタントであるパトリック・ムーアヘッドは、ARMアーキテクチャーを「計算能力という点で見れば(インテルのエントリーモデルの)『Core i3』か『Core i5』のローエンドモデル程度でしょう」と説明する。「いずれにしろ、20年までにARMアーキテクチャで『Xeon』や『Core i7』に近いパワーをもつチップができるとは思いません」』
『一方で開発側は、これまでのアプリをARMベースの「OS X」に対応させるために、ほかの仕事を中断しなければならなくなるかもしれない。10年以上前にアップルがインテルに乗り換えたときもそうだった。

「インテルを切り離す場合、すべてが完全にうまくいくような“魔法”はありません。かつてCPUをIBMの『PowerPC』からインテルに切り替えたときも、PowerPCベースのアプリがインテルのチップでも動くようにする魔法はありませんでした」とムーアヘッドは言う。「大半はコンパイルをやり直さなければなりません。プログラムの完全な書き換えが必要になるものもたくさんあるでしょう」』

PowerPC
https://ja.wikipedia.org/wiki/PowerPC

『設計特徴
PowerPCはRISCの思想で作られており、スーパースカラ方式で命令を実行する。

ベースにしたPOWERの特徴に、さらにいくつかの変更を加えた。

POWERアーキテクチャのうち、複雑なものを省いた命令セット。RISCプロセッサとしては、比較的複雑な命令も含む。
バイエンディアン(ビッグエンディアンおよびリトルエンディアンのサポート。G5を除く)
単精度浮動小数点演算に倍精度浮動小数点演算の追加
32ビット命令と完全下位互換の64ビット命令セット
32個のGPR(汎用レジスタ)と32個のFPR(浮動小数点レジスタ)
サブルーチンの呼出規約は一般的なRISCチップとは異なりスタック渡しである。実際は10個の引数までレジスタ渡しが行われるが、データのビット数によっては使用可能なレジスタ数が減少したり、非揮発性レジスタの退避などを行う必要がある。
1本のカウントレジスタ。専用の分岐命令などと組み合わせてループのカウントなどに利用する。
複雑な命令など一部を除き、命令は基本的にハードワイヤード (Hard-Wired) ロジックで実装(一部マイクロコードで実装)
G4(第4世代)シリーズでは128ビット単位でベクトル演算を行う『AltiVec(IBMはVMX、アップルコンピュータではVelocity Engineと表現している)』を採用。付随する専用のレジスタは32本。
8本の4ビット条件レジスタ(いわゆるステータスレジスタやフラグレジスタと呼ばれるもの)。詳細はステータスレジスタの項を参照。
原則として、現在のスタックのメモリアドレスを指すベースポインタを持たない。代りに汎用レジスタの一つを用いる。この規則はABIに依存するが、大抵の場合そのレジスタは1番の汎用レジスタである。また、0番の汎用レジスタは、命令によってはゼロレジスタの代用として用いられることがある。
静的な分岐予測を命令単位で設定できる。
条件分岐命令は8×32×17=4352通り(分岐予測を含む)の条件を組み合わせることが可能である。
1998年のPOWER3以降は、POWERも64ビットPowerPC仕様に準拠したアーキテクチャを採用している。』