カテゴリー: CPU、関連

スーパースカラー

7月 30, 2025

コンピューター、関連, CPU、関連

スーパースカラー
https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%BC%E3%83%91%E3%83%BC%E3%82%B9%E3%82%AB%E3%83%A9%E3%83%BC

『出典: フリー百科事典『ウィキペディア（Wikipedia）』

スーパースカラーのパイプライン概念図

CRAY T3E 並列コンピュータのプロセッサ基板。4個のスーパースカラー Alpha プロセッサを搭載

スーパースカラー(superscalar，スーパースケーラ)とは、プロセッサのマイクロアーキテクチャにおける用語で、複数の命令を同時にフェッチし、複数の同種のあるいは異種の実行ユニットを並列に動作させ[1]、プログラムの持つ命令レベルの並列性を利用して性能の向上を図るアーキテクチャである。

概要

スーパースカラプロセッサは、単一のプロセッサ内で命令レベルの並列性と呼ばれる、ある一種の並列処理の形式を実装するCPUである。クロックサイクル毎に最大で1つの命令しか実行できないスカラプロセッサとは対照的に、スーパースカラプロセッサは、プロセッサ上の複数の異なる実行ユニットに複数の命令を同時にディスパッチすることにより、1クロックサイクル中に複数の命令を実行できる。したがって、既定のクロックレートで(普通)可能なスループットよりも多くのスループット（単位時間のうちに実行できる命令の数）が可能になる。各実行ユニットは、個別のプロセッサ（あるいはマルチコアプロセッサの場合個別のコア）ではなく、単一CPU内の算術論理演算ユニットなどのような実行リソースである。

歴史

1965年のシーモア・クレイが設計したCDC 6600が、最初のスーパースカラー設計のマシンと言われている。

商用のシングルチップのスーパースカラーマイクロプロセッサは、Intel i960CA（1988年）と AMD 29000シリーズの 29050 (1990年）が最初である。RISC型CPUの設計ではコアが単純であったため、当時の設計ルールの細かさでもワンチップに複数の実行ユニット（ALUなど）を搭載でき、スーパースカラーを実現できたのである。このため、1980年代から1990年代にかけての時期に RISC が CISC に対して性能的に優位に立った。一部の低消費電力の組み込み向けプロセッサを除いて、1998年以降に開発された汎用プロセッサは基本的に全てスーパースカラーである。

現在パーソナルコンピュータでデファクトスタンダードとなっているx86アーキテクチャでは、1993年のPentiumで2実行ユニットのインオーダ実行型のスーパースカラーを実現し、その後の”P6″（Pentium Pro と Pentium II）以降で3実行ユニットのアウトオブオーダ実行型スーパースカラーに発展した。2008年現在のIA-32アーキテクチャは単一コア当り5実行ユニットのアウトオブオーダ実行型スーパースカラーで、平均IPCは3以上を達成している。

スカラーからスーパースカラーへ

最も単純なプロセッサアーキテクチャをスカラープロセッサと呼ぶ。スカラープロセッサでは、各命令で1つか2つのデータを一度に扱う。一方、ベクタープロセッサでは同時に多数のデータを扱う。これは数学におけるスカラーとベクトルの違いに似ている。スーパースカラープロセッサはこれらの中間と言える。各命令は1つのデータを扱うが、CPU内に複数の実行ユニットがあるため、それぞれ別のデータを扱う複数の命令を同時並列的に実行可能となる。

スーパースカラーCPUの設計では、複数存在する実行ユニットを常に働かせておくために、命令の分配機構が重要である。実装される実行ユニット数が増えるにつれ、その重要性は増している。初期のスーパースカラー型CPUには、2つのALUと1つのFPUが搭載されていたが、最近の PowerPC 970 では4つのALUと2つのFPUと2つのSIMDユニットが搭載されている。分配機構が効率的でない場合、これらの実行ユニットに連続して命令を供給することができず、システムの性能は全体として低くなる。

スーパースカラープロセッサの実行効率はサイクル当たりの実行命令数で表される。ただし、サイクル当たりの実行命令数が大きいからといって、常にスーパースカラーだとは限らない。パイプライン型CPUやマルチコアCPUも同様の性能を示すが、方式は異なる。

スーパースカラー型CPUでは、分配機構がメモリから命令群を読み込み、そこから並列に実行できる命令を選択し、実行ユニット群にそれらを供給する。従って、スーパースカラープロセッサはパイプラインが複数あって、各パイプラインが1つの命令スレッドを実行していると見なすこともできる。

限界

スーパースカラー技法による性能向上は、以下の2つによって制限される。

命令列の本質的な並列性の度合い。つまり、命令レベルの並列性の制約。

命令間の依存関係チェックロジックと分配機構が命令選択にかけられる時間の制約と機構自体の複雑さ。

既存のバイナリの実行プログラムの持つ並列性にはばらつきがある。ものによっては命令間の依存が全く無く、常に並列に実行可能なこともある。逆に依存関係が多く、並列性がほとんどない場合もある。例えば、a = b + c; d = e + f という命令列は依存関係がないため、並列に実行可能である。しかし、a = b + c; b = e + f という命令列は依存関係があるため、並列に実行することはできない。

同時に実行可能な命令数が増えると、依存関係をチェックするコストも急激に増大する。また、そのチェックをCPUのクロックに合わせて実行時に行わなければならないという事実が事態をさらに悪化させる。研究によれば、命令の種類を n、同時実行可能な命令数を k としたとき、依存関係チェックの回路規模は
n
k
{\displaystyle n^{k}}、時間は
k
2
log
⁡
n
{\displaystyle k^{2}\log n} かかるとされている。数学的には、この問題は順列における組合せ数学の問題である。

たとえ命令列に依存関係がないとしても、スーパースカラー型CPUは常に依存関係のチェックを行う。さもなくば、依存関係の検出に失敗し、不正な結果を得ることになる。

半導体プロセス技術がどれだけ進化して、スイッチ速度が高速化しても、以上のような問題によって同時に実行可能な実際の命令数には限界が生じる。プロセス技術の進化によって実行ユニット（ALUなど）の数が増えても、依存関係チェックのための論理回路の規模の増大が急激であるため、実現可能な規模は制限される。また、たとえ依存関係チェックを無限に素早く実行できたとしても、命令列の本質的な並列性によって性能向上に限界が生じる。

類似技法

このような限界があることから、他の性能向上技法の探求が行われた。例えば、VLIW、EPICアーキテクチャ、同時マルチスレッディング (SMT)、マルチコアなどである。

VLIW では、依存関係チェックを実行時にハードウェアで行うのではなく、コンパイラで行う。スーパースカラー設計では数ナノ秒で行わなければならないが、コンパイラではその制限はない。また、マルチコアとマルチスレッド・コンパイラの組合せでも同様である。EPICアーキテクチャも VLIW に似ている。

同時マルチスレッディング (SMT) はスーパースカラー型CPUの全体効率を向上させる技法である。SMT では複数の独立したスレッドを同時に実行することで、実行ユニットの稼働効率を向上させる。

マルチコアCPUは、個々のコアが1つのスレッドを実行する独立したプロセッサとなっている（通常、キャッシュを共有している）。

これらの技法は排他的なものではない。従って、マルチコアCPUの各コアがスーパースカラーであっても構わない。

脚注

^ “super-scalar organization in which multiple execution units operate essentially independently.” AMD. (2020). Software Optimization Guide for AMD EPYC™ 7003 Processors. rev. 3.00.
関連項目
アウト・オブ・オーダー実行
投機的実行/積極的実行
EPICアーキテクチャ
スーパーパイプライン
同時マルチスレッディング
パイプライン処理
参考文献

出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。（2023年1月）
マイク・ジョンソン著、村上和彰監訳、『スーパスカラ・プロセッサ- マイクロプロセッサ設計における定量的アプローチ -』、日経BP社、ISBN 4-8227-1002-5 （原著 Mike Johnson, Superscalar Microprocessor Design, Prentice-Hall, 1991, ISBN 0-13-875634-1）
Sorin Cotofana, Stamatis Vassiliadis, “On the Design Complexity of the Issue Logic of Superscalar Machines”, EUROMICRO 1998: 10277-10284
Steven McGeady, “The 1960CA SuperScalar Implementation of the 80960 Architecture”, IEEE 1990, pp. 232-240
Steven McGeady, et al., “Performance Enhancements in the Superscalar i960MM Embedded Microprocessor,” ACM Proceedings of the 1991 Conference on Computer Architecture (Compcon), 1991, pp. 4-7
外部リンク
Eager Execution / Dual Path / Multiple Path by Mark Smotherman
表話編歴
CPUテクノロジー
表話編歴
並列計算
カテゴリ: スーパースカラー・マイクロプロセッサコンピュータアーキテクチャCPU並列コンピューティング
最終更新 2025年5月18日 (日) 05:20 （日時は個人設定で未設定ならばUTC）。
テキストはクリエイティブ・コモンズ表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。』
MIPSアーキテクチャ

7月 30, 2025

コンピューター、関連, CPU、関連

MIPSアーキテクチャ
https://ja.wikipedia.org/wiki/MIPS%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3

『出典: フリー百科事典『ウィキペディア（Wikipedia）』

MIPSアーキテクチャ
開発者ミップス・コンピュータシステムズ
ビット数 64ビット (32→64)
発表 1981年
デザイン RISC
タイプレジスタ – レジスタ
エンコード固定
ブランチ条件レジスタ
エンディアンバイ
拡張 MDMX, MIPS-3D
レジスタ
汎用 31本（32本中、『R0』は常に0 なので除く）
浮動小数点 32本（32ビットでは2本で倍精度を表す）

MIPSアーキテクチャは、ミップス・コンピュータシステムズ（現ミップス・テクノロジーズ）が開発したRISCマイクロプロセッサの命令セット・アーキテクチャ (ISA) である。

概要

MIPSは “Microprocessor without Interlocked Pipeline Stages”（(命令)パイプラインのステージに「インターロックされたステージ」がないマイクロプロセッサ）に由来しており、R2000の頃のマイクロアーキテクチャの特徴からの命名である（が、その後そのような特徴が薄れていったのも、他のRISCと同様である）。

MIPS値にも掛けている。

当初は32ビット幅のレジスタとデータバスを持つ32ビットの構成だったが、後に64ビットに拡張された。

MIPSアーキテクチャには下位互換のある複数の命令セットが存在する。

それぞれ、MIPS I、MIPS II、MIPS III、MIPS IV、MIPS 32、MIPS 64 と称する。

現行版は MIPS 32（32ビット実装）と MIPS 64（64ビット実装）である[1][2]。MIPS 32 と MIPS 64では命令セットだけでなく制御レジスタについても定義している。

いくつかのアドオン拡張も用意されている。

例えば、MIPS-3D は、3Dタスクで一般的な処理を行うための浮動小数点SIMD命令のシンプルなセットである[3]。

また、MDMX (MaDMaX) は、より広範な整数SIMD命令セットで、64ビット浮動小数点レジスタを流用する。

その他、MIPS16e は命令列を圧縮してプログラム格納域を小さくするための拡張である (ARMアーキテクチャのThumbエンコーディングに対抗したもの) [4]。

また、MIPS MT は、米インテル社がハイパースレッディング・テクノロジーとして普及させた技術と同等の、マルチスレッディングに適した拡張である[5]。

命令セットが非常にきれいなので、アメリカ合衆国ではコンピュータ・アーキテクチャを学校で教えるときに教材としてMIPSアーキテクチャを使うことが多い[6]。

MIPSのデザインは、もうひとつの初期のRISCであるバークレーRISC（en:Berkeley RISC）と共に、後発のRISCに影響を及ぼした。

MIPSプロセッサは、SGIのコンピュータ製品群に使われていた。

日本では、ソニーのNEWSや日本電気 (NEC) のEWS4800で使われた。

また、米DEC社は、ごく短期間だけMIPSを使ったワークステーションを製品化していた[注 1]。

また、機器組み込み分野で成功し、Windows CE製品、シスコシステムズのルーター、プリンタのエンジンなどに使われた。

ゲーム機分野でも成功を収め、NINTENDO 64、ソニー・コンピュータエンタテインメントのPlayStation、PlayStation 2、PlayStation Portable、PlayStation 3 (CECHA00/CECHB00 モデルのみ)でもMIPSアーキテクチャのプロセッサが使われた。

1990年代後半、RISCマイクロプロセッサの出荷個数ベースで3分の1がMIPSアーキテクチャの製品だったと見積もられている[7]。

歴史

RISCの先駆者

1981年、スタンフォード大学のジョン・L・ヘネシー率いるチームは、後に最初のMIPSプロセッサを生むプロジェクトを開始した。

基本コンセプトは、命令パイプラインを深くすることで劇的に性能を向上させることである。

IBM 801 などの研究や先例でこの手法はよく知られていたが、その可能性が完全に解明されていなかった。

一般にプロセッサは、命令デコーダ、演算論理装置 (ALU)、メモリとやりとりするロード/ストア・ユニットといった部分で構成されている。

パイプライン化されていない従来の「マイクロプロセッサの」設計では、1つの命令の処理を（ほぼ）完了させないと次の命令の処理を開始できず、内部ではほとんどの時間を処理に関与せずに待機するだけの回路が多くなる。

これに対して「従来のマイクロプロセッサ」ではない、例えば1960年代のIBM 7030の頃には実現されていた命令パイプライン方式では、1つの命令の処理過程を複数のステージ（段階）に分割し、各ステージを順次、次のサブユニットに送って、複数のサブユニットがオーバラップして動作できるようにする。

1つ目の命令の最初のステージの処理が終わると、次のステージの処理へ引き継がれると同時に、2つ目の命令の最初のステージの処理が平行して実行される。

3つ目の命令が入ると1つ目の命令は3ステージ先、2つ目の命令は2ステージ先、3つ目の命令は最初のステージで、3つの処理が同時に行われる。

すべてが最も効率的に動けば、複数に分割した処理過程の内容に関わらず、1ステージの処理ごとに1つの命令が完了できることになる。

命令パイプラインでは、乗算・除算命令のように命令の実行に長い時間がかかる場合、パイプラインに次の命令を取り込むのを待つ必要がある。

この問題の解決策として、パイプラインの各ステージが処理中であることを示せるようにして、パイプラインをインターロックして、次の命令のステージが進行しないように止めなければならない。

これがストールである。

分岐命令を実行すると、後続の命令が途中のステージまで進行していたものを取り消さなければならず、ストールに加えて無駄となった処理時間分も加わる。

これらがインターロックのロスとなる[8]。

ストールが発生しインターロックがかかると命令パイプラインは足踏みするため、性能向上は望めないと考えられていた。

MIPSの設計上では、すべての命令を単純化して実行処理が1クロックサイクル内で完了するよう計画された。そうできればインターロックをなくすことができる。

このような設計にすることで掛け算や割り算などの複雑な命令が1つの命令では実行できなくなるが、単純な命令だけであれば、プロセッサに与えるクロックを高速にでき早く動作させて、性能が向上すると予想された。

また、インターロック回路を加えると半導体チップの面積（ダイサイズ）が増えて、クロックを上げることが困難になるため、クロックの高速化のためにはインターロックを排除することも必要だった。

複雑だが有用だった命令を排除することは議論の中心になった。

多くの人が「複雑な掛け算を単純な多くの足し算にして、どうして速度が向上するのか」と、この設計手法、そしてRISC一般の謳い文句に懐疑的で誇大広告だと言った。

しかし、これらの意見は、この設計における速度向上のポイントが命令の機能にあるのではなく、パイプラインにあるということを無視したものだった。

時間のかかる処理にまつわる問題は、ディレイスロットで一応解決された。

例えば、2クロックサイクルかかる命令があった場合、次の命令をディレイスロットとし、そこに、前の命令と依存関係の無い、つまり前の命令の結果を必要とせず、かつ前の命令に関わっているレジスタを使用しない命令を配置することで、パイプラインを止めないようにした。

これを実現するためには、プロセッサに与える命令列を生成するコンパイラが、あらかじめ各命令ごとのクロックサイクル数を把握して、可能な限りディレイスロットを有効な命令で埋めるようにする必要があった。

それでも大部分の命令は1クロックサイクルで実行できた。

また、コンパイラ技術の進展はディレイスロットの活用頻度を向上させた。

初期のMIPSと並び、RISCの典型であり代表とされるバークレーRISC（英語版）（SPARCへの影響が大きい）と比べると、サブルーチンコールの扱い方が大きく異なる。

バークレーRISCは頻繁に実行され性能への影響が大きいサブルーチンコールの性能向上を図るために、大きなレジスタファイルを持つと同時にレジスタ・ウィンドウというメカニズムを導入したが、それによってサブルーチンコールの入れ子段数が制限されている。

サブルーチンコールは、それぞれのルーチンで専用に用いるローカルのレジスタ群を必要とし、その割り当てをハードウェアでサポートするということはチップにさらなるリソースを必要とし、設計も複雑化することを意味する。

ヘネシーは、賢いコンパイラであればハードウェアでの実装に頼らずに使っていないレジスタを見つけ出すことができ、単にレジスタを有効利用できるだけでなく、あらゆるタスクの性能向上にも寄与すると考えた。

MIPSは最も典型的なRISCのひとつだとされる、というよりも、RISCの提唱者であるヘネシーとパターソンのそれぞれが設計した命令セット（命令セットアーキテクチャ）であるということを理由に、MIPSとバークレーRISCの設計が「典型的なRISC」だとされ、それらの特徴を以て「RISCの定義」だとされているためであり、「MIPSは最も典型的なRISC」だという言明はその逆になっている。

命令語のビット数を節約するために、命令数を抑えることで、命令フォーマット中のオペコード部として必要となるビット数を抑えている。

基本オペコードは、命令語32ビットの中の6ビットを使用し[9]、残りの部分の構成の違いにより数種類の分類がある。

命令語の残りの26ビットの部分について、26ビットの分岐先アドレスとする命令フォーマット、5ビットのフィールド4個で3つのレジスタとシフト値を指定し、残り6ビットを追加のオペコードとする命令フォーマット、2つのレジスタと16ビットの即値を指定する命令フォーマットがある。

このような設計で、実行すべき命令と必要なデータ（オペランド）を1サイクルでロードできるようになった

（正確には、必要なデータはレジスタの中にあるのであり、もし1サイクルで全てを揃えたいのなら特殊な技法が必要になる。

細かく言うと、「オペコードとオペランド指定子」を（1サイクルで32ビットをメモリからロードできるように他の部分が設計されていば）1サイクルでロードできる）。

最初のハードウェア

1984年、ヘネシーは、将来商業レベルとなる可能性のあるデザインを確立し、教え子、友人らとミップス・コンピュータシステムズを設立する。

1985年、彼らは、最初のデザインであるR2000を完成させた。

また、1988年には、それを進化させたR3000を完成させた。

これらの32ビットCPUによって、ミップス・コンピュータシステムズは、1980年代に基盤を築くことができた。

なお、これらの商用デザインにおいては、スタンフォード大学での学術研究的な設計方針とは異なり、ハードウェアにインターロック機構を装備し、掛け算も割り算もサポートしていた。

なぜなら、単にひとつのプログラムを実行するだけなら、上述のディレイスロットの考え方で何とかなるが、商用としてはマルチタスクや割り込みへの対応は必須であり、インターロック機構の付加は必然だったからである。

また、半導体プロセス技術の急速な進歩がそれを可能にしていった。

インターロック機構を備えたとしても、インターロックをなるべく発生させないコンパイラ技術は高速化に必須である。

これらのプロセッサは、SGI、DEC DECstation、ソニー NEWS、NEC EWS4800などに使われた。

これらの設計にはソフトウェアアーキテクトのアール・キリアンも参加している。

彼は後に MIPS III 64ビット命令セットを設計し、R4000のマイクロアーキテクチャ開発にも関わった[10][11]。

1991年、ミップス・コンピュータシステムズ社は、最初の64ビットマイクロプロセッサR4000をリリースした[注 2][8]。

R4000は仮想アドレスだけでなく仮想空間IDを格納できる進んだTLBを採用していた。

それによって頻繁なコンテキストスイッチの度にTLBをフラッシュする必要性をなくし、他の競合するアーキテクチャ（Pentium、PowerPC、Alpha）に対して劣っていたマイクロカーネル実装時の大きな性能問題を低減させることができた[12]。

しかし、ミップス社は、R4000を市場に提供しようとしたころ、財政危機に陥った。

そこで、当時のミップス社の最大の顧客であった米SGI社は、1992年にミップス社を買い取り、これによりMIPSアーキテクチャの存続が保証された。

こうしてミップス・コンピュータシステムズ社はSGIの子会社となり、社名もミップス・テクノロジーズと変更された。

アーキテクチャのライセンス供与

1990年初頭、ミップス・テクノロジーズ社は、プロセッサの設計をサードパーティーにライセンス供与しはじめた。

プロセッサ・コア、つまり主要な演算部分の単純さによって、これは「MIPSコア」として成功を収め、従来は同等のゲート数と価格のCISCプロセッサが占めていた様々な分野でMIPSコアが使われるようになった。

ゲート数と価格は密接な関係があり、CPUの価格はキャッシュメモリ領域を除けば、ゲート数とピン数でほぼ決まっていた。

サン・マイクロシステムズも追随してSPARCコアのライセンス供与を開始したが、成功したとは言い難い。

1990年代後半にはMIPSは機器組み込み用プロセッサ分野の勝者となっていた。

1997年、4800万個目のMIPSベースのチップが出荷され、MIPS CPUファミリはモトローラのMC68000ファミリを出荷個数で抜いた。

この成功により、SGI社はミップス・テクノロジーズを1998年にスピンオフさせた。

ミップス・テクノロジーズの収入の半分はライセンス料であり、残りはサードパーティーが生産するコアの設計から来ている。

1999年、ミップス・テクノロジーズ社はライセンス体系を整理し、32ビットのMIPS32（MIPS II にそれ以降の新規機能を追加したものだが、後に遅延分岐系のbranch likely は強い非推奨となり、将来の削除が予告された[13]）と64ビットのMIPS64（MIPS V ベース）に分けた。

このアナウンスと同時に、NEC、東芝、SiByte（後にブロードコムが買収）がMIPS64のライセンス供与を受けた。

フィリップス、LSIロジック、IDTもすでに参加している。

成功に成功が続き、MIPSはコンピュータに近い機器（ハンドヘルドコンピュータやセットトップボックスなど）の市場で最も使われているヘビー級CPUコアとなっている。

モトローラ社もセットトップボックスに自社のPowerPCではなくMIPSコアを採用した。

いくつかのベンチャー企業もミップス・テクノロジーズ社よりアーキテクチャ・ライセンスの供与を受けて参入してきた。

最初にMIPSプロセッサを設計したベンチャー企業はQuantum Effect Devicesだった。

MIPS社でR4300iを設計したチームはSandCraft（英語版）社を設立し、NEC向けにR5432を設計し、後にSR7100を作った。

これは、組み込み分野向けの最初のアウト・オブ・オーダー実行プロセッサである。

DECで最初にStrongARMを設計したチームはふたつのMIPS関連ベンチャーを設立した。

ひとつはSiByteでSB-1250というMIPSベースで最初のSystem-on-a-chip (SOC) を実現した製品を作った。

もうひとつのAlchemy SemiconductorはAu-1000という低電力のSOCを作った。

SiByteはブロードコムに買収された。

AlchemyはAMDに買収されたが、後にAMDはAlchemyをRaza Microelectronics (RMI) に売却した。

LexraはMIPSに似たアーキテクチャをベースにDSP機能を付加したチップをオーディオ機器市場向けに、マルチスレッド機能を付加したチップをネットワーク機器市場向けに出している。

LexraはMIPSからライセンス供与を受けていなかったため、MIPSとの間で2件の訴訟となった。

1件はLexraがMIPS互換であることを宣伝しないという条件ですぐさま解決した。

2件目は長引き、両社を疲弊させた。結局、ミップス・テクノロジーズがLexraに対してフリーライセンスと賠償金を払うことで決着した。

MIPSアーキテクチャを使ったマルチコアデバイスを構築することに特化した企業も2社登場している。

Raza Microelectronics, Inc. は低迷していたSandCraftから製品ラインを買い取り、通信およびネットワーク市場向けに8コアの製品を提供した。

Cavium Networks は元々はセキュリティ・プロセッサのベンダーだったが、こちらも同じ市場向けに8CPUコアを集積したデバイスを開発し、後に最大32コア版を開発している。両社ともに社内でコアを設計しており、MIPSからコア設計を買うのではなくアーキテクチャのライセンス供与だけを受けている。

デスクトップ市場を失う

MIPSプロセッサを使ったワークステーションシステムを製造していた企業として、SGI、ミップス・コンピュータシステムズ、Whitechapel Workstations、オリベッティ、Siemens-Nixdorf、エイサー、DEC、NEC、ソニー、DeskStation があった。

またMIPSアーキテクチャ上に移植されたオペレーティングシステムとして、SGIのIRIX、マイクロソフトのWindows NT（v4.0まで）、Windows CE、Linux、BSD、UNIX System V、QNX、ミップス自身のRISC/osなどがある。

1990年代初頭、インテルプロセッサベースのPCに対抗してMIPSプロセッサベースのコンピューティング環境を作るために、コンパック他多数の企業によって Advanced Computing Environment (ACE) というコンソーシアムが設立された。

当時、MIPSなどの強力なRISCプロセッサがインテルのIA-32アーキテクチャに取って代わるだろうという予測がなされていた。

マイクロソフトの Windows NT が当初、Alpha、MIPS、PowerPCなどのRISCアーキテクチャに対応したこともその予測を裏付ける形となった。

しかしインテルがPentiumクラスのCPUをリリースすると、マイクロソフトの Windows NT v4.0 では対応するアーキテクチャをIA-32とAlphaのみに絞った。

後にSGIがItaniumやIA-32アーキテクチャへの移行を決定すると、デスクトップ市場ではMIPSプロセッサはほぼ完全に姿を消した[14]。

組み込み市場

Ingenic JZ4725 は、MIPSベースのSoCの一例である。

1990年代を通して、MIPSアーキテクチャはコンピュータネットワーク、電気通信、アーケードゲーム、ゲーム機、プリンター、デジタルセットトップボックス、デジタルテレビ、DSLモデムやケーブルモデム、携帯情報端末といった組み込み市場で広く採用された。

MIPSの組み込み向け実装は低消費電力と低発熱を特徴とし、組み込み向けの開発ツールも充実しており、知識の蓄積もあることから、今も組み込み市場で人気を保っている。

組み込み市場向けの合成可能なコア

最近ではMIPSアーキテクチャはIPコアとして、組み込み用プロセッサの設計に使える形で利用されることが多い。

1999年の時点で、32ビットと64ビットの基本コアが提供されており、それぞれ MIPS32 4K と MIPS64 5K と呼ばれている。

それらのコアとFPU、SIMDシステム、各種I/Oデバイスなどを組み合わせてチップを設計できる。

MIPSコアは商業的に成功を収め、様々な機器で利用されている。

例えば、シスコシステムズやリンクシスなどのルーター、ケーブルモデム、ADSLモデム、ICカード、レーザープリンター、セットトップボックス、ロボット、ソニー・コンピュータエンタテインメントのPlayStation 2やPlayStation Portableなどで使われている。

携帯電話やPDAの分野では競合するARMアーキテクチャの座を奪うことはできなかった。

MIPSアーキテクチャの組み込み用プロセッサとして

IDT RC32438
ATI Xilleon
Alchemy Au1000/1100/1200
Broadcom Sentry5
RMI XLR7xx
Cavium Octeon CN30xx/CN31xx/CN36xx/CN38xx/CN5xxx
インフィニオン・テクノロジーズ EasyPort/Amazon/Danube/ADM5120/WildPass/INCA-IP/INCA-IP2
Microchip Technology PIC32
NEC EMMA/EMMA2/VR4181A/VR4121/VR4122/VR4181A/VR5432/VR5500
Oak Technologies Generation
PMC-Sierra RM11200
QuickLogic QuickMIPS ESP
東芝 Donau/TMPR492x/TX4925/TX9956/TX7901

などがある。

映像組み込みでの利用

2008年の時点で、MIPSはデジタルテレビで68%、DVDレコーダーで72%、Blu-Rayレコーダーで77%、ケーブルテレビのセットトップボックスで70%、IPテレビのセットトップボックスで77%のシェアがあり、動画のデコーダ・エンコーダを必要とする映像関係で広く使われている[15]。

MIPSベースのスーパーコンピュータ

MIPSアーキテクチャは超並列型のスーパーコンピュータにも採用された。

シリコングラフィックス (SGI) は1990年代前半からデスクトップ型のグラフィックス・ワークステーションだけでなく高性能計算市場にも注力するようになった。

R4400やR8000を使った Challenge シリーズというサーバシステムで成功を収め、後にR10000も採用している。

その後SGIはさらに強力なシステムの開発に注力するようになる。

R10000を採用した Origin 2000 はNUMA型で最大1024個のプロセッサを相互接続するものだった。

さらにそこからR14000やR16000を最大1024個構成できる Origin 3000 を開発。

しかし、SGIは2005年にIA-64アーキテクチャへの移行を決定し、MIPSベースのスーパーコンピュータの開発をやめた。

高性能計算のベンチャー企業SiCortexは、2007年にMIPSベースの超並列マシンを発表した。

MIPS64アーキテクチャをベースとし、カウツグラフのトポロジーを使って高性能インターコネクトでノードを相互接続する。

消費電力が小さく計算能力が高い。

計算ノードはMIPS64コアを8個集積したマルチコアであり、メモリコントローラ、DMAエンジン、ギガビット・イーサネット、PCI Express コントローラなどがシングルチップに集積されていて、消費電力はわずか10ワットでありながら、浮動小数点演算性能はピークで6GFLOPSとされている。

最大構成のSC5832はそのようなノードチップ972個で構成されており、MIPS64コアが5832個ある。ピーク性能は8.2テラFLOPSとされている。

龍芯
→詳細は「龍芯」を参照

龍芯は中国科学院が設計したMIPS互換のマイクロプロセッサであるが、当初はミップス・テクノロジーよりライセンスを受けていなかった。

そのマイクロアーキテクチャは中国が独自に設計したもので、初期の設計ではMIPSアーキテクチャにある4つの命令が実装されていなかった[16]。

2009年6月、中国科学院はミップス・テクノロジーズから直接、MIPS32およびMIPS64アーキテクチャのライセンス供与を受けた[17]。

2006年から各社が龍芯をベースとしたコンピュータをリリースしており、低消費電力のネットブックやネットトップもある[18][19]。

MIPS IV

MIPS IV は4番目のアーキテクチャである。MIPS III のスーパーセットであり、それまでの全てのアーキテクチャと互換性がある。MIPS IV は1994年のR8000で初めて実装された。MIPS IV で追加された点は次の通りである。

浮動小数点数のロード/ストア命令で「レジスタ + レジスタ」形式（インデックスつき）のアドレス指定を追加

単精度および倍精度の浮動小数点数の積和演算命令を追加

条件転送命令（整数レジスタと浮動小数点レジスタ）を追加

FPUの制御/ステータスレジスタに新たな条件ビットを追加し、全部で8ビットとした。

MIPS V

MIPS V は5番目のアーキテクチャで、1996年10月21日の Microprocessor Forum 1996 で発表された[20]。

主に3次元グラフィックスの性能向上を目的としている。

1990年代中ごろ、組み込み用途以外では主にSGIがグラフィックス・ワークステーションにMIPSマイクロプロセッサを使っていたためである。

MIPS V と同時にそれを補完する MIPS Digital Media Extensions (MDMX) というマルチメディア拡張（整数のみ）も発表された[21]。

MIPS V を実装した製品は結局登場しなかった。

1997年、SGIはコード名 “H1” または “Beast” と、”H2″ または “Capitan” というマイクロプロセッサを発表した。

前者は最初の MIPS V 実装で、1999年に出荷予定とされた。

“H1” と “H2” のプロジェクトは後に統合され、最終的に1998年に中止となった。

MIPS V は pair-single (PS) と呼ばれる新たなデータ型を追加していた。

これは単精度（32ビット）浮動小数点数のペアを64ビットのFPUレジスタに格納するものである。

算術演算命令、比較命令、条件転送命令ではPSデータをSIMD風に扱う。

またPSデータのロード、配置変更、変換などの命令が追加されている。

既存リソースで浮動小数点SIMDを実現しようという試みだった[21]。

MIPS CPU ファミリ

初期のMIPSのパイプライン概念図。5段パイプラインである（命令フェッチ、命令デコード、実行、メモリアクセス、ライトバック）

初の商用モデルR2000は1985年に発表された。

実行に複数サイクルを要する乗算と除算命令の処理部をチップ上にやや独立したユニットとして追加した。

乗除算の結果は直接汎用レジスタには入らず、専用のレジスタに出力されるため、それを汎用レジスタに持ってくる命令も追加された。

その命令を乗除算の完了前に発行するとパイプラインがインターロックする。

R2000は起動時にビッグエンディアンとリトルエンディアンのどちらかを選んで動作する。

32ビット汎用レジスタを32本持つが、コンディションコードレジスタを持たない。

設計者はそれがボトルネックになる可能性を考慮したためで、条件判断は指定した2つのレジスタの値の比較を行い、その結果で分岐の可否を判断する。

レジスタに入っている値で条件判断するのはAMD Am29000 や DEC Alpha とよく似ている。

なお、プログラムカウンタには直接アクセスできない。

R2000は最大4個のコプロセッサをサポートしており、そのうち1つは主CPUに組み込まれていて、例外処理、トラップ処理、メモリ管理などを行う。

したがって、実際に外付けできるコプロセッサは3個までである。

オプションの R2010 FPUをコプロセッサとして接続できる。

R2010は32ビットの浮動小数点レジスタを32本持ち、倍精度演算では64ビットレジスタ16本として使用できる。

R2000の後継としてR3000が1988年に登場した。

命令およびデータ向けにそれぞれ32KB（間もなく64KBに拡大）のキャッシュを追加し、マルチプロセッシングのためのキャッシュコヒーレンシにも配慮していた。

そのマルチプロセッササポートには欠陥があったが、R3000で何とかマルチプロセッサ構成にした製品がいくつか存在した。

R3000には当時の他のマイクロプロセッサと同様にメモリ管理ユニット (MMU) も組み込まれていた。

R3000にもR2000のときと同様に R3010 FPUが存在した。

MIPSアーキテクチャのプロセッサとしては初めて市場で成功を収め、累計100万個以上が生産された。

改良によって最高40MHzで動作するR3000Aが登場し、32VUPs (VAX Unit of Performance)の性能を発揮した。

R3000A互換の R3051 はソニー・コンピュータエンタテインメントのPlayStationに採用され、33.8688MHzで動作した。

サードパーティはR3000AとR3010をワンチップ化したものを設計しており、Performance Semiconductor のPR3400、IDTのR3500、NECのVR3600がある。

東芝のTX3900はSoCであり、Windows CE の動作するハンドヘルドPC向けに開発された。

航空宇宙分野向けに電磁波耐性を強化したMongoose-VもR3000とR3010をワンチップ化していた。

R4000シリーズは1991年に登場した。

命令セットを完全な64ビット対応に拡張し、FPUをCPUチップに統合し、従来よりずっと高いクロック周波数で動作した（当初は100MHz）。

しかし、クロック周波数を上げるために一次キャッシュは命令とデータそれぞれ8KBに減らされ、キャッシュアクセスに3サイクルかかるようになった。

動作周波数を上げるため、スーパーパイプラインと呼ばれるパイプライン段数を増やす工夫を行っている。

改良版のR4400は1993年に登場。一次キャッシュが16KBに倍増され、64ビット関連のバグ（エラッタ）が一掃され、より大きな二次キャッシュをサポートしている。

SGIの一部門となったミップスは外部バスを32ビットに縮小した低価格のR4200を設計し、さらに安価なR4300iのベースとなった。

R4300iをベースとしてNECが開発したVR4300はゲーム機のNINTENDO 64に採用された[22]。
R4700 Orion の底面のカバーを外してチップ本体が見えるようにしたもの。Quantum Effect Devices が設計し、IDTが製造した。

R4700 Orion の上面

ミップスの元従業員が創業した Quantum Effect Devices (QED) は、R4600 Orion、R4700 Orion、R4650、R5000を設計した。

R4000がクロック周波数を上げるためにキャッシュ容量を犠牲にしたのに対して、QEDは2サイクルでアクセスできる大きなキャッシュを搭載し、シリコンの面積の効率的利用を達成した。

R4600とR4700は SGI Indy の低価格版で採用され、シスコのルーター（36×0、7×00など）でもMIPSアーキテクチャとして初めて採用された。

R4650はWebTVのセットトップボックスで採用された。

R5000は単精度浮動小数点演算性能を向上させており、同クロック周波数のR4400を搭載した同型機（SGI Indy）よりもグラフィックス描画が高速になった。

SGIは同じグラフィックスボードでもR5000向けは名称を変更し、性能が高いことを強調した。

QEDはその後、ネットワーク機器やレーザープリンターなどの組み込み市場向けにRM7000とRM9000というファミリーを設計した[23]。

RM7000は256KBの二次キャッシュをチップ上に搭載し、三次キャッシュのコントローラも備えていた。

RM9xx0はSOCファミリーで、CPUにメモリコントローラ、PCIコントローラ、ギガビット・イーサネットのコントローラ、HyperTransportポートなどの高速I/Oといったノースブリッジ機能を集積している。

QEDは2000年8月、半導体企業 PMC-Sierra に買収され、PMC-SierraがMIPSアーキテクチャのプロセッサ開発を継続している。

R8000（1994年）はミップスの設計による初のスーパースケーラ方式で、複数の命令を同時に実行可能となった。

ワンチップではなく、CPU+一次キャッシュ（命令・データそれぞれ16KB）、FPU、二次キャッシュのタグRAMチップ×3（2個はキャッシュアクセス用、1つはバススヌープ用）、キャッシュコントローラの6個のチップで構成されている。

完全にパイプライン化された加算・乗算ユニットを2つ持ち、外付けの4MBの二次キャッシュからFPUが直接データを取ってくる設計である。

SGIの POWER Challenge サーバで採用され、後に POWER Indigo2 ワークステーションでも採用された。

しかし浮動小数点演算性能は高いが整数演算性能はあまり高くないため科学技術計算などにしか向かず、また複数チップで構成されるためコストが高く、SGI以外では採用例がない。

1995年R10000がリリースされた。

シングルチップでR8000よりも高いクロック周波数で動作し、一次キャッシュは命令・データ共に32KBと大きい。

スーパースケーラ設計だが、最大の改良点はアウト・オブ・オーダー実行を採用した点である。メモリ・パイプラインは1つしかなく、FPUもR8000より単純だが、整数演算性能が大幅に強化されており、低コストでもあったため、市場で成功を収めた。

その後の設計は全てR10000コアをベースとしている。R12000は0.25μmプロセスを採用してチップを縮小し、クロック周波数を高めている。それを改良したR14000でもクロック周波数を向上させると共に、外付けの二次キャッシュに DDR SRAM を利用可能にした。その後もクロック周波数を向上させ内蔵キャッシュ容量を増加させたR16000とR16000Aがリリースされた。

他にもMIPSファミリーにはR6000（1991年）がある。ECLで実装したもので、Bipolar Integrated Technology が製造した。R6000では MIPS II 命令セットが初めて採用された。TLBとキャッシュのアーキテクチャが他のMIPSファミリーとは大きく異なる。発表したとおりの性能を発揮できなかったが、CDCがサーバに採用した。しかし、すぐに市場から姿を消した。

MIPS マイクロプロセッサの仕様
モデル動作周波数[MHz] 登場年プロセス[μm] トランジスタ[百万] ダイサイズ[mm2] ピン数電力[W] 電圧[V] データキャッシュ[kB] 命令キャッシュ[kB] 2次キャッシュ 3次キャッシュ
R2000 8 – 16.67 1985 2.0 0.11 — — — — 32 64 none none
R3000 12 – 40 1988 1.2 0.11 66.12 145 4 — 64 64 0-256KB （外付） none
R4000 100 1991 0.8 1.35 213 179 15 5 8 8 1MB （外付） none
R4400 100-250 1992 0.6 2.3 186 179 15 5 16 16 1-4MB （外付） none
R4600 100-133 1994 0.64 2.2 77 179 4.6 5 16 16 512KB （外付） none
R4650 133-180 1994 0.64 2.2? 77? 179? 4.6? 5 16 16 512KB （外付） none
R4700 100-200 1996 0.5 2.2? — 179 — — 16 16 外付 none
R5000 150-200 1996 0.35 3.7 84 223 10 3.3 32 32 1MB （外付） none
R8000 75-90 1994 0.7 2.6 299 591+591 30 3.3 16 16 4MB （外付） none
R10000 150-200 1996 0.35, 0.25 6.7 299 599 30 3.3 32 32 512KB-16MB （外付） none
R12000 270-400 1998 0.25, 0.18 6.9 204 600 20 4 32 32 512KB-16MB （外付） none
RM7000 250-600 1998 0.25, 0.18, 0.13 18 91 304 10, 6, 3 3.3, 2.5, 1.5 16 16 256KB （内蔵） 1MB （外付）
MIPS32 4K 138 1999 0.18
MIPS64 5K 1999
MIPS64 20K 2000
R14000 500-600 2001 0.13 7.2 204 527 17 — 32 32 512KB-16MB （外付） none
R16000 700-1000 2002 0.11 — — — 20 — 64 64 512KB-16MB （外付） none
MIPS32 24K 400(130nm)
750(65nm)
1468(40nm) 2003 40nm 〜 130nm — 0.83 （コアのみ） — — — 64 64 4-16MB （外付） none
MIPS32 34K 500(90nm)
1454(40nm) 2006 90nm
65nm
40nm
MIPS32 74K 1080 2007 65nm
MIPS32 1004K 1.1GHz 2008 65nm
MIPS32 1074K 1.5GHz 2010 40nm
microAptiv 2012 90nm～65nm
interAptiv 2012 65nm～40nm
proAptiv 2012 40nm～22nm
注意：主なプロセッサの仕様のみ掲載。

MIPS I の命令形式
命令は R、I、Jの3種類に分類される。どの命令も先頭に6ビットのオペコードがある。Rタイプではオペコードの次に3本のレジスタを指定するフィールドがあり、シフト量を指定するフィールド、機能を指定するフィールドが続く。Iタイプでは2つのレジスタを指定するフィールドと16ビットの即値のフィールドがある。 Jタイプでは、オペコードに続いて26ビットで分岐先アドレスを指定する[24][25]。

次表は主要な命令セットの3種類の形式を示したものである。

タイプ -31- フォーマット (ビット数) -0-
R オペコード (6) rs (5) rt (5) rd (5) シフト量 (5) 機能 (6)
I オペコード (6) rs (5) rt (5) 即値 (16)
J オペコード (6) アドレス (26)
MIPS アセンブリ言語
アセンブリ言語には、直接ハードウェア実装に対応した命令以外に複数命令の列に変換される「擬似命令」が存在する。

以下の表で、d、t、s といった文字はレジスタの番号や名前のためのプレースホルダーとなっている。
C は定数（即値）を示す。
オペコード及び機能のコードは16進数である。
MIPS32命令セットでは Add や Subtract 命令で使われる unsigned という用語が誤解を生みやすいとしている。それらの命令の signed と unsigned の違いはオペランドを符号拡張をするかしないかではなく、オーバーフロー発生時にトラップを起こすか (e.g. Add) 無視するか (Add unsigned) である。それらの命令の即値オペランド CONST は常に符号拡張される。
整数
MIPSアーキテクチャは32本の整数レジスタを持つ。算術処理を行うにはデータがレジスタ上になければならない。レジスタ$0は常に0であり、レジスタ$1はアセンブラが一時的に使用する（擬似命令や大きな定数を扱う場合）。

エンコーディングは命令語の各ビットが命令のどの部分と対応しているかを示している。ハイフン (-) はそのビットが無視されることを意味する。

種類名称構文意味形式/オペコード/機能コード注記/エンコーディング
算術 Add add $d,$s,$t $d = $s + $t R 0 2016 2つのレジスタを加算。オーバーフロー時にはトラップ発生
000000ss sssttttt ddddd— –100000
Add unsigned addu $d,$s,$t $d = $s + $t R 0 2116 上と同様だが、オーバフローを無視
000000ss sssttttt ddddd— –100001
Subtract sub $d,$s,$t $d = $s – $t R 0 2216 2つのレジスタで減算。オーバーフロー時にはトラップ発生
000000ss sssttttt ddddd— –100010
Subtract unsigned subu $d,$s,$t $d = $s – $t R 0 2316 上と同様だが、オーバーフローを無視
000000ss sssttttt ddddd000 00100011
Add immediate addi $t,$s,C $t = $s + C (signed) I 816 – 符号拡張した即値とレジスタを加算。addi $1, $2, 0 のようにレジスタ間転送にも使える。オーバフロー時にはトラップ発生
001000ss sssttttt CCCCCCCC CCCCCCCC
Add immediate unsigned addiu $t,$s,C $t = $s + C (signed) I 916 – 上と同様だが、オーバフローを無視（即値は符号拡張される）
001001ss sssttttt CCCCCCCC CCCCCCCC
Multiply mult $s,$t LO = (($s * $t) << 32) >> 32;
HI = ($s * $t) >> 32; R 0 1816 2つのレジスタで乗算。64ビットの積は専用レジスタ HI と LO に格納。(int HI,int LO) = (64-bit) $s * $t と表すこともできる。HIとLOには mfhi および mflo でアクセスする。
Divide div $s, $t LO = $s / $t HI = $s % $t R 0 1A16 2つのレジスタで除算。32ビットの商をLO、余りをHIに格納。[24]
Divide unsigned divu $s, $t LO = $s / $t HI = $s % $t R 0 1B16 2つのレジスタの内容を符号なし整数と解釈して除算。商はLO、余りはHIに格納。
データ転送 Load double word ld $t,C($s) $t = Memory[$s + C] I 2316 – $s+C というアドレスから8バイトの連続する位置にあるデータをロードし、$tとその次のレジスタに格納する。
Load word lw $t,C($s) $t = Memory[$s + C] I 2316 – $s+C というアドレスから4バイトの連続する位置にあるデータをロードする。
Load halfword lh $t,C($s) $t = Memory$s + C I 2116 – $s+C というアドレスから2バイトの連続する位置にあるデータをロードし、符号拡張してレジスタに格納
Load halfword unsigned lhu $t,C($s) $t = Memory$s + C I 2516 – 上と同様だが、符号拡張しない。
Load byte lb $t,C($s) $t = Memory$s + C I 2016 – $s+C というアドレスの1バイトのデータをロードし、符号拡張する。
Load byte unsigned lbu $t,C($s) $t = Memory$s + C I 2416 – 上と同様だが、符号拡張しない。
Store double word sd $t,C($s) Memory[$s + C] = $t I – $t とその次のレジスタの内容を $s+C という位置から8バイト連続でストアする。オペランドの順序に注意が必要。
Store word sw $t,C($s) Memory[$s + C] = $t I 2B16 – $s+C という位置から4バイト連続でストアする。
Store half sh $t,C($s) Memory[$s + C] = $t I 2916 – レジスタの下位16ビットを $s+C という位置から2バイト連続でストアする。
Store byte sb $t,C($s) Memory[$s + C] = $t I 2816 – レジスタの下位8ビットを $s+C という位置にストアする。
Load upper immediate lui $t,C $t = C << 16 I F16 – 16ビットの即値をレジスタの上位16ビットにロードする。ロードできる最大値は216-1。 Move from high mfhi $d $d = HI R 0 1016 HIレジスタの値を汎用レジスタに転送。この命令から2命令以内に multiply または divide 命令を使ってはならない（その場合の動作は未定義） Move from low mflo $d $d = LO R 0 1216 LOレジスタの値を汎用レジスタに転送。この命令から2命令以内に multiply または divide 命令を使ってはならない（その場合の動作は未定義） Move from Control Register mfcZ $t, $s $t = Coprocessor[Z].ControlRegister[$s] R 0 コプロセッサZのコントロールレジスタの内容を汎用レジスタに転送。符号拡張する。 Move to Control Register mtcZ $t, $s Coprocessor[Z].ControlRegister[$s] = $t R 0 汎用レジスタの4バイトの内容をコプロセッサZのコントロールレジスタに転送。符号拡張する。論理 And and $d,$s,$t $d = $s & $t R 0 2416 ビット毎のAND 000000ss sssttttt ddddd— –100100 And immediate andi $t,$s,C $t = $s & C I C16 – 即値とのビット毎のAND 001100ss sssttttt CCCCCCCC CCCCCCCC Or or $d,$s,$t $d = $s | $t R 0 2516 ビット毎のOR Or immediate ori $t,$s,C $t = $s | C I D16 – 符号拡張した即値とのビット毎のOR Exclusive or xor $d,$s,$t $d = $s ^ $t R 0 2616 ビット毎のXOR Nor nor $d,$s,$t $d = ~ ($s | $t) R 0 2716 ビット毎のNOR Set on less than slt $d,$s,$t $d = ($s < $t) R 0 2A16 $sと$tの値を符号付き整数として比較し、$s が小さければ $d に1を、そうでなければ0を格納 Set on less than immediate slti $t,$s,C $t = ($s < C) I A16 – 符号拡張した即値と$sの値を比較し、$sが小さければ $d に1を、そうでなければ0を格納。シフト Shift left logical sll $d,$t,C $d = $t << C R 0 0 $sの内容をCビット左にシフト。 2 C O N S T {\displaystyle 2^{CONST}} をかけるのと同等 Shift right logical srl $d,$t,C $d = $t >> C R 0 216 $sの内容をCビットだけ右にシフト。シフトされて空いた上位ビットには0を格納。正の整数を
2
C
{\displaystyle 2^{C}} で割ったのと同等。
Shift right arithmetic sra $d,$t,C
$

d

$
t

>
C
+
(
(
∑

n

1
CONST
2
31
−
n
)
⋅
$
2
>
31
)
{\displaystyle \scriptstyle \$d=\$t>>C+\left(\left(\sum _{n=1}^{\text{CONST}}2^{31-n}\right)\cdot \$2>>31\right)} R 0 316 $sの内容をCビットだけ右にシフト。シフトされた空いた上位ビットは元の値を符号付整数と解釈して符号拡張する。2の補数で表された符号付整数を
2
C
{\displaystyle 2^{C}} で割ったのと同等。
条件分岐 Branch on equal beq $s,$t,C if ($s == $t) go to PC+4+4C I 416 – 2つのレジスタの値が等しい場合、指定されたアドレスに分岐 000100ss sssttttt CCCCCCCC CCCCCCCC Branch on not equal bne $s,$t,C if ($s != $t) go to PC+4+4C I 516 – 2つのレジスタの値が等しくない場合、指定されたアドレスに分岐
無条件ジャンプ Jump j C PC = PC+4[31:28] . C4 J 216 – 指定されたアドレスに無条件ジャンプ Jump register jr $s goto address $s R 0 816 指定したレジスタが示すアドレスに無条件ジャンプ Jump and link jal C $31 = PC + 8; PC = PC+4[31:28] . C4 J 316 – プロシージャコール用。$31にリターンアドレスを格納してジャンプする。プロシージャからの復帰は jr $31 とする。リターンアドレスが PC+8 なのは、遅延スロットがあるため。
注: MIPSのアセンブリ言語のコード上、分岐命令での分岐先アドレスはラベルで表現される。

注: “load lower immediate” 命令は存在しない。これは addi 命令や ori 命令でレジスタ $0 を使うことで実現される。例えば、addi $1, $0, 100 も ori $1, $0, 100 もレジスタ$1に100という値が格納される。

注: 即値を減算するには、その値の否定を即値として加算すればよい。

浮動小数点数
MIPSアーキテクチャには32本の浮動小数点レジスタがある。2本のレジスタで倍精度の数値を表す。奇数番目のレジスタで倍精度の数値を指定することはできない。

種類名称構文意味形式/オペコード/機能注記/エンコーディング
算術 FP add single add.s $x,$y,$z $x = $y + $z 単精度加算
FP subtract single sub.s $x,$y,$z $x = $y – $z 単精度減算
FP multiply single mul.s $x,$y,$z $x = $y * $z 単精度乗算
FP divide single div.s $x,$y,$z $x = $y / $z 単精度除算
FP add double add.d $x,$y,$z $x = $y + $z 倍精度加算
FP subtract double sub.d $x,$y,$z $x = $y – $z 倍精度減算
FP multiply double mul.d $x,$y,$z $x = $y * $z 倍精度乗算
FP divide double div.d $x,$y,$z $x = $y / $z 倍精度除算
データ転送 Load word coprocessor lwcZ $x,CONST ($y) Coprocessor[Z].DataRegister[$x] = Memory[$y + CONST] I $2+CONST の位置から4バイトをコプロセッサのデータレジスタにロード。符号拡張する。
Store word coprocessor swcZ $x,CONST ($y) Memory[$y + CONST] = Coprocessor[Z].DataRegister[$x] I コプロセッサのデータレジスタの内容を $2+CONST から4バイト連続でストアする。符号拡張する。
論理（比較） FP compare single (eq,ne,lt,le,gt,ge) c.lt.s $f2,$f4 if ($f2 < $f4) cond=1; else cond=0 2つのレジスタの内容を単精度浮動小数点数として大小比較し、$f2の方が小さければFPUのステータスレジスタの条件ビットを1に、そうでなければ0にセットする。
FP compare double (eq,ne,lt,le,gt,ge) c.lt.d $f2,$f4 if ($f2 < $f4) cond=1; else cond=0 2つ（正確には4つ）のレジスタの内容を倍精度浮動小数点数として大小比較し、$f2の方が小さければFPUのステータスレジスタの条件ビットを1に、そうでなければ0にセットする。
分岐 branch on FP true bc1t 100 if (cond == 1) go to PC+4+100 浮動小数点条件ビットが1ならPC相対（即値）で分岐
branch on FP false bc1f 100 if (cond == 0) go to PC+4+100 浮動小数点条件ビットが0ならPC相対（即値）で分岐
擬似命令
MIPSアセンブラは以下の命令を受け付けるが、これらは実際にはMIPSの命令セットに存在しない。アセンブラが同等の命令列に変換し、その際に $1 ($at) レジスタを一時的に使用することがある。

名称構文実際の命令列意味
Move move $rt,$rs addi $rt,$rs,0 R[rt]=R[rs]
Load Address la $at, LabelAddr lui $at, LabelAddr[31:16]; ori $at,$at, LabelAddr[15:0] $at = Label Address
リンカがアドレスを決定した際に命令を書き換える。
Load Immediate li $at, IMMED[31:0] lui $at, IMMED[31:16]; ori $at,$at, IMMED[15:0] $at = 32ビット即値
Branch if greater than bgt $rs,$rt,Label slt $at,$rt,$rs; bne $at,$zero,Label if(R[rs]>R[rt]) PC=Label
Branch if less than blt $rs,$rt,Label slt $at,$rs,$rt; bne $at,$zero,Label if(R[rs]=R[rt]) PC=Label
Branch if less than or equal ble $rs,$rt,Label slt $at,$rt,$rs; beq $at,$zero,Label if(R[rs]<=R[rt]) PC=Label Branch if greater than unsigned bgtu $rs,$rt,Label if(R[rs]=>R[rt]) PC=Label
Branch if greater than zero bgtz $rs,$rt,Label if(R[rs]>0) PC=Label
Multiplies and returns only first 32 bits mul $1, $2, $3 mult $2, $3; mflo $1 $1 = $2 * $3
その他の命令
NOP命令。通常 sll $0,$0,0 という命令を使い、その機械語コードは 0x00000000 となる。
break命令。デバッガでのブレークポイント設定で使用する。
syscall命令。オペレーティングシステムのシステムコールに使われ、ユーザーモードからカーネルモードに移行する。
コンパイラのレジスタ使用規則
ハードウェアのアーキテクチャにより、以下のことが定められている。

汎用レジスタ $0 は常に 0 という値を返す。このレジスタに値を書いても変化はしないし、書いた値は消失する。
汎用レジスタ $31 は jal (jump and link) 命令でリンクレジスタとして使われる。
HIおよびLOレジスタは乗除算の結果へのアクセスに使われ、mfhi (move from high) 命令と mflo 命令がそのためにある。
汎用レジスタを使う際のハードウェア上の制限はこれだけである。

各種MIPSツールチェーンでは、レジスタをどのように使うかについて呼出規約を定めている。これはツールチェーンのソフトウェアが定めているもので、ハードウェアにそのような制限があるわけではない。

レジスタ
名称番号用途呼び出された側が内容を保存する必要があるか?
$zero $0 常に 0 N/A
$at $1 アセンブラが一時的に使用 No
$v0–$v1 $2–$3 関数の戻り値や式を評価した結果 No
$a0–$a3 $4–$7 関数の引数 No
$t0–$t7 $8–$15 一時変数 No
$s0–$s7 $16–$23 一時変数だがセーブされる Yes
$t8–$t9 $24–$25 一時変数 No
$k0–$k1 $26–$27 OSのカーネル用に予約 No
$gp $28 広域（グローバル）ポインタ Yes
$sp $29 スタックポインタ Yes
$fp($s8) $30 フレームポインタ Yes
$ra $31 リターンアドレス N/A
呼び出された側が保存すると定められているレジスタは、サブルーチンや関数の呼び出しやシステムコールでも保持される。例えば、$s-レジスタをルーチン内で使うときは、その内容をスタックに一時的に退避させなければならない。$sp と $fp はルーチンに入ってきたときにセーブされ、それぞれルーチン固有の固定値でインクリメントされる。そして、そのルーチンから戻るときに元の値に戻す。一方 $ra は jal 命令でルーチンに飛び込むときに自動的に変更される。$t-レジスタはサブルーチンを呼び出すと内容が破壊されるので、必要なら呼び出す側がセーブしておかなければならない。

シミュレータ
Open Virtual Platforms (OVP)[26] では、非商用利用に限って無料で使えるシミュレータ OVPsim、プロセッサや周辺機器やプラットフォームのモデルのライブラリ、ユーザーが独自のモデルを開発できるAPIなどを提供している。ライブラリに含まれるモデルはオープンソースでC言語で書かれており、MIPSの 4K, 24K, 34K, 74K, 1004K, 1074K, M14K といったコアが揃っている。それらのモデルの開発と保守は Imperas が行っており[27]、ミップス・テクノロジーズの協力の下で評価し MIPS-Verified ™ というマークをもらっている。MIPSベースのプラットフォームのモデルとしては、非常に単純なものとLinuxのバイナリイメージをブートできるものが用意されている。それらのプラットフォーム・エミュレータはソースとバイナリの形で提供されており、高速で使いやすい。

また、教育向けのMIPS32（当初はR2000/R3000をシミュレートしていた）のフリーなシミュレータ SPIM がある[28]。EduMIPS64[29] は、GPLライセンスのグラフィカルなMIPS64シミュレータで、Java/Swingで書かれている。MIPS64 ISA の大部分をカバーするサブセットをサポートしており、アセンブリ言語で書かれたプログラムを実行したときCPU内のパイプラインで何が起きているかをグラフィカルに表示する。こちらも教育向けで、世界各地の大学で利用されている。

MARS[30] もGUIベースのMIPSエミュレータで教育向けに作られており、特にヘネシーの『コンピュータの構成と設計』を教科書として使う際に役立つよう設計されている。

より実用的なフリーなエミュレータとしてGXemulやQEMUプロジェクトのものがある。MIPS III および IV のプロセッサをエミュレートでき、コンピュータシステム全体のエミュレートも可能である。

商用のシミュレータは主に組み込み用MIPSプロセッサを対象としたものが存在する。例えば、Virtutech Simics (MIPS 4Kc and 5Kc, PMC RM9000, QED RM7000)、VaST Systems (R3000, R4000)、CoWare (MIPS4KE, MIPS24K, MIPS25Kf, MIPS34K) がある。

脚注
[脚注の使い方]
注釈
^ MIPS社のR4000が登場する頃には、DEC社は自社製RISCマイクロプロセッサAlphaを完成させてこれに切り替えた。
^ R4000は、スーパーパイプラインを世界で最初に導入した市販のマイクロプロセッサである。しかし、これによって、”Microprocessor with Interlocked Pipeline Stages” パイプライン・ステージがインターロックされるマイクロプロセッサと揶揄されることになった。
出典
^ “MIPS32 Architecture”. ミップス・テクノロジーズ. 2009年5月27日閲覧。
^ “MIPS64 Architecture”. ミップス・テクノロジーズ. 2009年5月27日閲覧。
^ “MIPS-3D ASE”. ミップス・テクノロジーズ. 2009年5月27日閲覧。
^ “MIPS16e”. ミップス・テクノロジーズ. 2021年1月14日閲覧。
^ “MIPS MT ASE”. ミップス・テクノロジーズ. 2009年5月27日閲覧。
^ University of California, Davis. “ECS 142 (Compilers) References & Tools page”. 2009年5月28日閲覧。
^ Rubio, Victor P. “A FPGA Implementation of a MIPS RISC Processor for Computer Architecture Education”. New Mexico State University. 2011年12月22日閲覧。
^ a b 神保進一著、『マイクロプロセッサテクノロジ』、日経BP社、1999年12月6日第1版第1刷発行、ISBN 4822209261
^ Morgan Kaufmann Publishers, Computer Organization and Design, David A. Patterson & John L. Hennessy, Edition 3, ISBN 1-55860-604-1, page 63
^ “Earl Killian”. Paravirtual. (2010年11月26日) 2010年11月26日閲覧。 ⚠
^ “S-1 Supercomputer Alumni: Earl Killian”. Clemson University. (2005年6月28日) 2010年11月26日閲覧. “Earl Killian’s early work w… As MIPS’s Director of Architecture, he designed the MIPS III 64-bit instruction-set extension, and led the work on the R4000 microarchitecture. He was a cofounder of QED, which created the R4600 and R5000 MIPS processors. Most recently he was chief architect at Tensilica working on configurable/extensible processors.” ⚠
^ Jochen Liedtke(1995). On micro kernel construction. 15th Symposium on Operating Systems Principles, Copper Mountain Resort, Colorado.
^ “MIPS® Architecture For Programmers Volume II-A: The MIPS32® Instruction Set Document Number: MD00086 Revision 5.04 December 11, 2013”. p. 41. 2023年12月9日閲覧。
^ SGI announcing the end of MIPS – ウェイバックマシン（2008年3月7日アーカイブ分）
^ CPUコアベンダからの脱却 – 変貌するMIPS Technologiesの実像を探る
^ http://www.mdronline.com/mpr/h/2006/0626/202602.html China’s Microprocessor Dilemma
^ China’s Institute of Computing Technology Licenses Industry-Standard MIPS Architectures
^ “LinuxDevices article about the Municator”. 2012年12月16日時点のオリジナルよりアーカイブ。2010年12月12日閲覧。
^ “Yeelong Specs”. 2012年12月10日時点のオリジナルよりアーカイブ。2010年12月12日閲覧。 (LinuxDevices, Oct. 22, 2008)
^ “Silicon Graphics Introduces Enhanced MIPS Architecture to Lead the Interactive Digital Revolution”. Silicon Graphics, Inc. (1996年10月21日). 2011年2月25日閲覧。
^ a b Gwennap, Linley (18 November 1996). “Digital, MIPS Add Multimedia Extensions”. Microprocessor Report. pp. 24–28.
^ NEC Offers Two High Cost Performance 64-bit RISC Microprocessors
^ 編集人山形孝雄「PMC-Sierra RMシリーズの概要とRM7900&RM900x2Gの詳細」『Interface2004年7月号』CQ出版社、2004年7月1日、77-88頁。ISSN 0387-9569。
^ a b MIPS R3000 Instruction Set Summary
^ MIPS Instruction Reference
^ Welcome Page | Open Virtual Platforms
^ Welcome to Imperas | Imperas
^ James Larus. “SPIM MIPS Simulator”. 2007年3月4日閲覧。
^ EduMIPS64
^ MARS MIPS simulator – Missouri State University
参考文献
David A. Patterson and John L. Hennessy (2007). Computer Organization and Design: The Hardware/Software Interface. Morgan Kaufmann Publishers. ISBN 978-0-12-370606-5
David A. Patterson and John L. Hennessy; 成田光彰 (2006). コンピュータの構成と設計第３版（上）ハードウエアとソフトウエアのインタフェース. 日経BP. ISBN 4-8222-8266-X
David A. Patterson and John L. Hennessy; 成田光彰 (2006). コンピュータの構成と設計第３版（下）ハードウエアとソフトウエアのインタフェース. 日経BP. ISBN 4-8222-8267-8
プロセッサを中心としたコンピュータの設計全般に関する書籍で、命令セットの例としてMIPSアーキテクチャを取り上げている。MIPS開発者であるジョン・L・ヘネシーも著者の一人である。
Dominic Sweetman. See MIPS Run. Morgan Kaufmann Publishers. ISBN 1-55860-410-3
MIPSアーキテクチャについての決定版的な本。ハードウェアアーキテクチャだけでなく、コンパイラやOSについても詳述している。
Farquhar, Erin; Philip Bunce. MIPS Programmer’s Handbook. Morgan Kaufmann Publishers. ISBN 1-55860-297-6
関連項目
μClinux
PlayStation – CPUとしてR3000Aを搭載。
外部リンク
MIPS Architectures at MIPS Technologies
Full overview of MIPS architecture
Patterson & Hennessy – Appendix A
Summary of MIPS assembly language
MIPS Instruction reference
MARS (MIPS Assembler and Runtime Simulator)
MIPS processor images and descriptions at cpu-collection.de
A programmed introduction to MIPS assembly
Mips bitshift operators
MIPS software user’s manual
MIPS Architecture history diagram
MIPS Open initiative # 2018年12月17日(米国時間)にWave Computing社はMIPS Open(MIPS命令セットアーキテクチャ(ISA)のオープンソース化プログラム)を発表。
表話編歴
MIPSマイクロプロセッサ
表話編歴
プロセッサアーキテクチャ
典拠管理データベース: 国立図書館ウィキデータを編集
イスラエルアメリカ
カテゴリ: MIPSアーキテクチャコンピュータアーキテクチャMIPSのマイクロプロセッサ命令セットアーキテクチャアドバンスドRISCコンソーシアム
最終更新 2025年1月30日 (木) 08:43 （日時は個人設定で未設定ならばUTC）。
テキストはクリエイティブ・コモンズ表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。』
龍芯

7月 30, 2025

コンピューター、関連, CPU、関連, 中国の戦略

龍芯
https://ja.wikipedia.org/wiki/%E9%BE%8D%E8%8A%AF

『出典: フリー百科事典『ウィキペディア（Wikipedia）』

この記事は中国語版の対応するページを翻訳することにより充実させることができます。（2019年8月）
翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。

この項目「龍芯」は加筆依頼に出されており、内容をより充実させるために次の点に関する加筆が求められています。
加筆の要点 – 龙芯ベースの製品、龙芯ソフトウェアの生態情報
（貼付後はWikipedia:加筆依頼のページに依頼内容を記述してください。記述が無いとタグは除去されます）
（2019年8月）

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索?: “龍芯” – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2019年8月)

この記事は更新が必要とされています。この記事には古い情報が掲載されています。編集の際に新しい情報を記事に反映させてください。反映後、このタグは除去してください。 (2019年8月)

龙芯テクノロジー株式会社
Loongson Technology Corporation Limited

種類
混合所有制企業
業種半導体技術産業
設立 2010年4月
創業者胡偉武教授
本社中華人民共和国の旗中華人民共和国
北京市海淀区稲香湖路中関村環境保護科学技術実証公園龍芯工業園区
事業地域
グローバル
主要人物
社長
胡偉武教授
サービスチップ設計、マザーボード設計、オペレーティングシステムとカーネルのメンテナンス、重要なソフトウェアとライブラリのメンテナンス
従業員数
400人以上（見積もり）
ウェブサイト龙芯公式サイト
テンプレートを表示
龙芯

販売者龙芯テクノロジー株式会社, Jiangsu Lemote Tech Co., Ltd, Dawning Information Industry, and others
設計者中国科学院コンピューティング技術研究所, 中国科学院, Jiangsu Lemote Tech Co., Ltd
生産者 STMicroelectronics,SMIC
CPU周波数 8 MHz から 2.0 GHz
HyperTransport帯域 800 MHz から 3.0 GHz
プロセスルール 28 nm から 180 nm
アーキテクチャ MIPSアーキテクチャ
LoongsonISA®
テンプレートを表示

龙芯（中: 龙芯、英: Loongson、旧名英: Godson[1])は、中国科学院コンピューティング技術研究所の胡偉武およびその他によって設計された汎用中央処理装置であり、MIPSアーキテクチャとLoongISA®縮小命令セットアーキテクチャを使用してMIPS®命令セットを購入する[2]。龙芯1系列は組み込みチップであり、多くの企業で使用されている。龙芯2系列の速度は最大1 GHzで、シンクライアントや産業用制御などのローエンドアプリケーションで使用される。龙芯3系列は、デスクトップ、サーバー、スーパーコンピューター、産業用制御などの分野で2010年に発売された。現在、中国科学院のコンピューティング技術研究所は、龙芯中央処理装置を搭載したスーパーコンピュータープログラムも開発している[3]。

履歴

Godson時代（2000-2010）

2000年、龙芯一号（Godson-1）開発を開始。

2001年5月、中国科学院コンピューティング技術研究所の知識革新プロジェクトの支援により、龙芯グループが正式に設立された。

2001年8月19日、龙芯一号の設計および検証システムは、Linuxオペレーティングシステムを正常に起動した。

2002年8月10日、中国初の汎用CPU龙芯一号（コードXIA50）が成功した。

2003年10月17日、中国で最初の64ビット汎用CPU龙芯2B（コードネームMZD110）が成功した。

2004年9月28日、龙芯2C（コードネームDXP100）は成功した。

2006年3月18日、周波数が1 GHzを超える中国初の汎用CPU龙芯2E（コードネームCZ70）がリリースされた。

2006年10月、中国とフランスは北京のロンソンプロセッサに関する中国科学アカデミーとSTMicroelectronicsの間で戦略的協力協定に署名し、胡錦涛国家主席とジャックシラクフランス大統領はこの協定の調印式に出席した。

2007年7月31日、龙芯2F（コードネームPLA80）が正常にリリースされた。龙芯2Fは龙芯の最初の製品チップである。

2009年9月28日、中国初のクアッドコアCPU龙芯3A（コードネームPRC60）の成功。

産業時代（2010-現在）

2010年4月、中国科学院と北京は共同で株式の投資と設立を主導し、龙芯テクノロジー株式会社を設立し、龙芯は正式に研究開発から工業化に移行した。

2012年10月、8コア32nm龙芯3B1500フィルムが成功。

2013年12月、龙芯テクノロジー株式会社は、北京市海淀区稲香湖路中関村環境保護科学技術実証公園龍芯工業園区に移転した。

2015年8月、龙芯の次世代高性能プロセッサアーキテクチャGS464Eがリリースされた。

プロセッサ/命令セット

龙芯一号

龙芯1号系列と2009年に龙芯テクノロジー株式会社がリリースした龙芯一号は同じ製品ではないことに注意。龙芯一号（英語名Godson-1）は2000年に開発された。2001年8月19日、龙芯一号ロジックデザインがFPGAプラットフォームで実行された。したがって、8月19日は龙芯の誕生日に指定された。龙芯一号の物理設計には3つのバージョンがあり、Aソリューションは龙芯がサードパーティから委託するように設計されており、Bプランは実験的なフロープラン、Cプランは量産プランである。2002年8月10日、龙芯一号（プログラム）がオペレーティングシステムを正常に点灯し、8月29日、龙芯一号（Cソリューション）がオペレーティングシステムを正常に起動した。龙芯一号は、メイン周波数266MHz、32ビットの単一放射、オンチップの400万個のトランジスタを備えた0.18ミクロンCMOSプロセスでストリーミングされる。MIPSIIIに似たRISC命令セットは、7ステージの動的パイプライン、32ビット整数ユニット、および64ビット浮動小数点ユニットを備えている。全体的なパフォーマンスは、Intel Pentium IIよりも低くなっている。コンピューター業界に従事していた胡偉武の指導者夏培粛の50周年を記念して、「龙芯一号」は「XIA50」と名付けられた。

2009年、中国石油大学の科学技術修士号とその研究チームは、龙芯2EへのWindows®CEの移植を実現し、龙芯の初期の組み込みエコシステムの開発を支援した。ただし、2EのCE BSPと龙芯一号のBSPは同じものではないことに注意する必要がある。[4]

龙芯1号シリーズ

2010年4月、龙芯テクノロジー株式会社は正式に設立され、中国北京市海淀区稲香湖路中関村環境保護科学技術実証公園龍芯工業園区に定住した。会社の設立後、龙芯調査市場は、ローエンドの組み込み製品ラインである龙芯1号系列を再確立した。現在知られている製品は、龙芯 1A、1B、1C300 / 1C101（指紋生体認証アプリケーションチップ）、1D（超音波測定チップ）、1E04 / 1E0300 / 1E1000（1Eシリーズは龙芯航空宇宙向けの特別な照射防止プロセッサだ）1F04 / 1F300（1Fシリーズは龙芯スペース特別な照射防止ブリッジをサポートする1Eシリーズだ）、1G（オーディオ専用チップ）、1H（石油掘削高温チップ）、1J（抗照射シングルチップ）である。

龙芯1A

龙芯 1Aは、2011年の市場調査に基づいて龙芯が開発した組み込み市場向けのプロセッサである。龙芯1Aプロセッサは、その設計の観点から、龙芯2Hを差し引いたものと見なすことができる。龙芯1Aチップのメイン周波数は266MHzで、32ビットのスーパースカラーGS232プロセッサコアを使用する。二重発行順不同実行はMIPS32命令セットと互換性がある。第1レベルの命令キャッシュは16KB、第1レベルのデータキャッシュは16KBである。130nm CMOSプロセスで製造され、448ピンの23mm * 23mm BGAパッケージで提供され、消費電力は1W未満である。龙芯1Aは2012年に製品を供給した。龙芯1Aは、龙芯の他のプロセッサーのブリッジとして使用できる。

龙芯1Aは以前の龙芯1とはまったく異なる製品であり、龙芯1Aプログラムとは何の関係もないことに注意。

龙芯1B

龙芯1Bは、市場調査に基づいて組み込み市場向けに龙芯が開発したプロセッサである。龙芯1Bは、龙芯1Aの簡易版とみなすことができる。これは、組み込みプロセッサの開発におけるゴッドソンの継続的な減算の成果である。龙芯1Bは、龙芯1Aより先に2011年にリリースされた。200MHzでクロックされる龙芯1B、統合32ビットスーパースカラープロセッサコア（GS232）、デュアルイシューアウトオブオーダー実行構造は、MIPS32命令セット、5ステージパイプライン、8 KBの第1レベルの命令キャッシュ、および8 KBの第1レベルのデータキャッシュをサポートする。130nm CMOSプロセスで製造された17mm * 17mm BGAパッケージは256ピンで、消費電力は<0.5Wである。最大の機能の1つは、12個のUART（シリアル）インターフェイスがあることである龙芯1Bは、システム全体の観点からコスト削減チップを検討した龙芯の歴史の中で初めてである。

龙芯1C300

2013年に発売された龙芯1Cは、指紋生体認証アプリケーション向けである。龙芯1C300は300MHzでクロック駆動され、MIPS32命令セットと互換性のある32ビットスーパースカラープロセッサコア（GS232）のデュアル送信順不同実装を使用する;第1レベルの命令キャッシュは16KB、第1レベルのデータキャッシュは16KBである。20mm * 20mm QFP176パッケージと130W CMOSプロセスで製造され、消費電力は<0.5Wである。

胡偉武の指導者である夏培粛の90歳の誕生日を記念して、龙芯1CのコードネームはXPS90である。

龙芯1C101

龙芯1C101は8MHzのクロックで動作し、32ビットプロセッサコア（GS132R）のシングル発行シーケンシャル実行を使用し、パッケージサイズ12mmx12mm、ピンカウント64、パッケージQFP64で130nmプロセスで製造される。消費電力16.5mW /16.5μW

龙芯1C101チップは、「超人智能锁」用に2018年に龙芯によって開発および提供されたチップである。

龙芯1D

2014年に発売された龙芯1Dは、ユーザーのニーズに合わせてスマート水道メーター、ガスメーター、カロリーメーター用に龙芯がカスタマイズした特別な超音波計測チップである。龙芯1Dは8MHzでクロックされ、MIPS 32命令セットと互換性のある32ビットプロセッサコア（GS132）を実行するために単一の送信シーケンスを使用する。オンチップメモリは4KB + 1KBSRAMおよび64KBFlashである。これには、1つの超音波パルス発生器、1つのアナログコンパレータ、および1つの時間デジタル変換器が含まれている。パッケージサイズ12mm * 12mm QFP80、消費電力100uWの130nm EFlashプロセスで製造。

龙芯1G

龙芯1Gは、「苏州上声音响」で使用される、顧客のニーズに合わせてカスタマイズされた特別なオーディオチップである。龙芯1Gチップには、GS232デュアル埋め込み龙芯プロセッサーコア、LCDコントローラー、2つの適応MAC、DDR2コントローラー、USB2.0インターフェース、SPIコントローラーを含む各インターフェース8KBの命令およびデータキャッシュと統合された主な機能がある。AC97コントローラー、I2Cコントローラー、RTCインターフェース、PWMコントローラー、GPIOポートなど

龙芯1H

2015年、新しく開発された龙芯1Hチップは、石油掘削の分野でのLWDアプリケーション向けに設計され、設計目標は175°Cの超高温作業条件下での長期にわたる信頼できる動作である。龙芯1Hは8MHzでクロックを供給し、シングルショット実行、GS132プロセッサコア、MIPS32命令セット互換、3ステージパイプライン、統合単精度浮動小数点コプロセッサ、オンチップRAM /フラッシュ/ EEPROM、24ビットADC、コンパレータ、電源管理およびその他のモジュール、タイマー、SPI、UART、I2C、CAN、その他のインターフェース。このチップは設計フローとアプリケーション検証を完了し、商品化されている。製造プロセスは、14mm * 14mm QFP100にパッケージ化された130nm EFlashプロセスを使用し、50mWを消費する。龙芯1Hは2017年4月にリリースされた。現在、龙芯1Hは長清油田で使用されている。

龙芯2号シリーズ

龙芯2号系列のオリジナルバージョンは、0.13ミクロンプロセステクノロジーに基づいていた。龙芯2号系列は、2B、2C、2D、2E、2F / 2F-1000、2G / 2GQ、2H、2I（2GP）、2K1000 / 2K2000モデルとして知られている。龙芯2プロセッサは64ビットプロセッサであり、初期のモデルは4ビットの順不同64ビットGS464シリーズプロセッサコアだったが、新しいプロセッサはGS464Eプロセッサコアにアップグレードされた。龙芯2Kプロセッサは、デュアル発行の順不同のGS264プロセッサコアを備えた64ビットデュアルコアプロセッサである。龙芯2GQは4コアプロセッサである。

龙芯2A / 2B

龙芯2の設計は、2002年7月に4つの問題と順不同の設計、64ビットの設計、7〜10のパイプラインで始まった。龙芯2レジスタファイルは2つのオプションで設計されており、AスキームはTSカレントチップの商用レジスタファイルを使用し、BスキームはSMICで使用されるマイクロエレクトロニクスセンター設計のレジスタファイルを使用する。Aスキームで採用されている商用レジスタファイルの設計に欠陥があり、チップが故障する。Bソリューションの開発に成功し、2003年10月17日にオペレーティングシステムが正常に起動し、最大周波数は300MHz、消費電力は1W〜2Wである。同じメイン周波数で、龙芯2Bのパフォーマンスは、Pentium IIを超えている。Pentium IIは、Godson-1の3〜5倍である。毛泽东会長の誕生日110周年を記念して、龙芯2BはMZD110というコードネームを付けた。龙芯2のパフォーマンスは、以前に開発されたGodson-1の3倍であり、同じPentium IIのパフォーマンスを超えている。

龙芯2C

龙芯2Cは、龙芯2Bの最適化バージョンである。上海SMICでは、SMICが0.18ミクロンのCMOSプロセスを使用して多くのテープアウトに成功し、2004年9月28日にフィルムのリリースに成功し、最終チップの定格は500MHzになった。龙芯2Cのパフォーマンスは、以前開発された龙芯2Bの3倍であり、同じ周波数で同じPentium IIIのパフォーマンスを達成している。邓小平の100歳の誕生日を記念するため、龙芯2CのコードネームはDXP-100である。

龙芯2D

龙芯プロセッサの初期の開発履歴によると、基本的に1年に1つのプロセッサストリームがある。龙芯2Cは2004年にリリースされ、龙芯2Eは2006年にリリースされたため、龙芯2Dは2005年にリリースされた製品であると推測できる。中国科学アカデミーのマイクロエレクトロニクス研究所の研究者である黄令仪の回想で、彼女は龙芯2Dの物理設計に関与していると述べた。「龙芯的足迹」の記事「2006年のレビューと2007年の展望」で、胡伟武は「2005年に直面した厳しい状況が龙芯2Eに戦闘の悲劇的な色を与えた」と述べたため、龙芯2Dは単一の映画である可能性が高いと推測できる。失敗したモデル、または途中で放棄されたモデル。

龙芯2E

龙芯2Eは2005年11月末に映画に配信され、2006年3月18日にリリースされた。

龙芯2Eプロセッサの正面写真

2006年9月13日、龙芯2EはCZ70と名付けられ、長い行進の70周年を記念して、科学技術省、そしてその後、科学技術大臣徐冠華によって承認された。龙芯2Eは、中国本土で最初に90ナノメートルの技術で設計されたプロセッサで、トランジスタ数は4,700万で、最大周波数は1 GHzに達する。龙芯2Eのチップサイズは6.8mm * 5.2mmで、Intel Pentium 4の1/4に過ぎない。龙芯2Eプロトタイプで測定されたSPEC CPU2000スコアは、固定小数点503ポイント、浮動小数点503ポイント、最高の倍精度浮動小数点演算速度は3.99GFlopsである。龙芯2Eのパフォーマンスは龙芯2Cの3倍であり、中〜低価格のIntel Pentium 4プロセッサーのレベルに達する。龙芯2Eの最適化された設計プロセスで、STMicroelectronicsは龙芯と協力した。龙芯2Eの成功に基づいて、STMicroelectronicsはライセンス料で3百万米ドルを超える龙芯2E / 2Fの生産および販売承認を購入し、中国のコンピューターコアテクノロジーの外部承認の先例を設定した。龙芯2EのNorthbridgeはFPGAを使用して実装されているため、コストが高く、プロセッサは大量生産されていない。 [5][6]

龙芯2F / 2F1000

龙芯2Fは2007年7月31日に正常にリリースされた。龙芯2Fは、龙芯の最初の成功した商業プロセッサである。軍の創立80周年を記念して、龙芯2FコードネームはPLA80である。龙芯2Fには、800MHzでクロックされる5,100万個のトランジスタが含まれ、STMicroelectronicsの90ナノメートルプロセスを使用している。命令セットの64ビットMIPS IIIと完全に互換性がある。龙芯2Fプロセッサーを搭載した福坂ミニコンピューターと8089A / Dラップトップは、多くのファンに販売されている。これまでのところ、これらの2つの製品を保持している龙芯ファンの数はまだ多くある。

これは、Richard Stallman 龙芯2Fチップを搭載した江蘇省龙梦（Lemote）ノートブックコンピューターに属し、コンピューターはBIOSレベルで完全に無料のソフトウェアである。
2007年12月に、336の64ビット龙芯2Fプロセッサを搭載した中国初の国内兆高性能コンピューター KD-50-Iが正常に統合され、理論上のピークコンピューティング容量は1.008兆に達した。このプロジェクトは、中国科学技術大学の学者陳国良（コンピューターエキスパート）が主催した。コンピューターのコストは800,000 RMB未満に制御される。[7][8]。

龙芯2G / 2G + / 2GQ / 2G-2000

龙芯2Gは、「High Core Safety Computer CPU Development and Application」原子力高規模主要プロジェクトの支援を受けて開発された。2008年に設計されたが、龙芯の2Gおよび3Aプロジェクトの同時実装により、開発の進捗に影響を与える重複があった。2010年に正常に開発された。龙芯2Gは65ナノメートルプロセスを採用し、主周波数は1.0 GHz、トランジスタ数は1億、命令セットはMIPS64と互換性があり、X86バイナリ変換アクセラレーション命令が追加され、龙芯メディア拡張命令に加えて、64 KB命令と64 KBデータのL1キャッシュ、1 MBがある。L2キャッシュ、消費電力3W。このプロセッサでは、X86バイナリ変換テクノロジが使用され、MIPSプラットフォームでX86ダイナミックバイナリ変換を実装する方法が提案されている。龙芯2Gは、龙芯3A1000のシングルコアバージョンに相当する。龙芯2GQは、クアッドコアプロセッサである龙芯2Gの製品版である。龙芯2GQと龙芯3A1000の違いは、龙芯2GQは複数の相互接続をサポートしていないことである。龙芯2GPは後に龙芯2Iと改名された。

龙芯2H

龙芯2Hは、龙芯2Gプロセッサおよび龙芯1A（2F Southbridge）の後継であり、セキュリティで保護されたコンピューター用のシングルチップソリューションを提供することを目的としている。龙芯2Hは、周波数が1 GHz以上の65 nmプロセスで実装されている。主にネットワーク機器に使用される。MIPS64命令セットと互換性があり、X86バイナリ変換命令セットをサポートする。64KBの命令L1cacheと64KBのデータL1cache、512KBのL2cacheがある。統合されたGS232Vメディア処理IP。

龙芯2Hの最初のアプリケーションはネットブックだったが、ネットブック市場が消滅したため、この分野には適用されなかった。龙芯2Hは、主に産業用制御の分野、およびファイアウォールを含むネットワークセキュリティの分野で使用される。龙芯2Hは2012年にリリースされ、サンプルは2013年にリリースされ、製品は2014年にリリースされた。龙芯2Hのフローは、龙芯が複雑なSOCの設計能力を習得したことを示している。龙芯2Hの特徴は、多くの機能を統合した大規模で包括的な機能であり、チップ設計は複雑だが、特定のアプリケーション向けに最適化されていない。龙芯2Hは、スタンドアロンSOCまたはHTインターフェイスのサウスブリッジチップとして使用できる。

龙芯2I

龙芯アシニアメンテナー「Flygoat」の分析によれば、龙芯2Iは龙芯2GP0800Dの別のコード名である。

龙芯2K1000

龙芯2K1000は、デュアル送信64ビットGS264マイクロ構造、40 nmプロセス、1 GHzでクロックされる商用グレードチップ、および800 MHzでクロックされる産業グレードチップを使用するデュアルコアプロセッサである。

龙芯2K1000プロセッサの正面写真

龙芯Pi二代目ホームの正面写真

龙芯2K1000プロセッサは龙芯2Hのアップグレードチップであり、その計算性能とIO帯域幅は龙芯2Hよりも大幅に高くなっている。龙芯2K1000は、タブレットと産業用制御分野の両方でのネットワーク通信アプリケーション向けに設計されている。

統合された64ビットDDR3コントローラー、2つのGMACコントローラー、2つのX4PCIEコントローラーは、6 X1モードで構成できる。統合共有1MBセカンダリキャッシュ、統合GPU、ディスプレイコントローラー、デュアルDVIディスプレイのサポート。統合64ビット533MHz DDR2 / 3コントローラー、1 SATA2.0インターフェイス、4 USB2.0インターフェイス、2 RGMIIギガビットネットワークインターフェイス、統合HDA / AC97 / I2Sインターフェイス、統合RTC / HPETモジュール。最大4つのUARTコントローラー、1つのNANDコントローラー、2つのCANコントローラー、および1つのSDIOコントローラーを統合する。

龙芯2K2000

龙芯2K2000は、計画中の龙芯2K1000のアップグレード版であり、2 GHzの周波数で28ナノメートルプロセスで生産される予定である。

龙芯3号シリーズ
龙芯3プロセッサは、4送信64ビットマルチコアプロセッサである。現在、龙芯3B1500プロセッサは8コアであることに加えて、他の龙芯3プロセッサは4コアである。龙芯3C5000プロセッサは、プロセッサコアを16に増やする。

龙芯3プロセッサの微細構造は、GS464、GS464E、GS464V、およびGS464EV（GS464v）に分かれている。

龙芯3A1000

龙芯3A1000は、STMicroelectronicsの65nmプロセスフローを使用して2008年末に納品された。2009年5月20日、龙芯3A1000ウェーハ生産は組立ラインから外れた。9月28日、サンプルが戻って、800MHz-1GHzのクロックでオペレーティングシステムを正常に起動した。龙芯3A1000は2010年5月中旬に最初に改訂およびリリースされた。10月末の最初の改訂は成功した。3A1000の2番目のリビジョンは2012年2月下旬にリリースされ、2012年8月中旬に正常にリリースされた。龙芯3A1000は、4つの4つのアウトオブオーダー実行GS464コア、9ステージパイプライン、64KBプライマリデータキャッシュおよび64KBファーストレベル命令キャッシュ、4MB共有セカンダリキャッシュ、最大周波数1GHz、消費電力15w（ダイナミックドロップをサポート）を統合する周波数）、チップ面積は174mm2、トランジスタ数は4億2500万である。各CPUコアには2つの浮動小数点乗算および加算パーツが含まれ、倍精度浮動小数点パフォーマンスピークは16GFlopsである。龙芯3A1000プロセッサには、x86バイナリ変換アクセラレーション命令が実装されている。3A100は、HT1.0 * 2、PCIコントローラー、LPC、SPI、UART、GPIOを統合している。1121ピンと40mm x 40mm FCBGAパッケージを備えた統合72ビットDDR2 / 3コントローラー。

龙芯3B1000

2010年11月の終わりに、3B1000チップの最初のバッチがリリースされ、2011年2月上旬にリリースされ、7月上旬に返却された。龙芯3B1000は2度目の再設計を行い、2011年12月上旬にリリースされ、2012年4月末に返却された。

龙芯3B1000は、高性能マルチコアCPU R＆Dおよび原子力ハイベースプロジェクトのアプリケーションでサポートされている。STMicroelectronicsの65ナノメートルプロセスで設計されており、周波数は1 GHz、消費電力は25 Wである。8つの64ビット4発行の順不同の龙芯ベクトル実装を統合している。プロセッサコアGS464V、4MBセカンダリキャッシュ、各コアには2つの256ビットベクターコンポーネントが含まれ、ピーク浮動小数点パフォーマンスは128GFLOPSである。

龙芯3B1000の最大の特徴は、GS464コアの浮動小数点コンポーネントと浮動小数点レジスタファイルを2つの256ビットベクトル処理コンポーネントと128×256ビットベクトルレジスタファイルで置き換える龙芯ベクトルプロセッサコアの設計である。1 GHzでの龙芯3Bのピーク倍精度浮動小数点計算機能は、128 GFlopsに達する。龙芯3Bプロセッサには、300を超える専用のベクトル処理命令が実装されている。

龙芯3Bチップの面積は300mm2で、トランジスタの数は6億個近くである。

龙芯3B1500

龙芯3B1500は、2012年1月中旬に設計および出荷された。サンプルは2012年8月末に採取された。その後、プロセスは32nmから28nmに移行し、2013年4月末にリリースされた。10月末にサンプルが受け取られたが、フィルムは成功しなかった。その後、32nmプロセスに復元され、何らかの方法でフィルムのコストが補償された。そのため、再度改訂され、2015年1月末にリリースされた。サンプルは2015年6月下旬に受領された。

龙芯3B1500Eプロセッサの正面写真

龙梦A1310マザーボード（統合された龙芯3B1500Eプロセッサ）

龙芯は当初16コアの龙芯3Cプロセッサーの発売を計画していたが、戦略的な調整により、当初の龙芯3Cはキャンセルされ、8コアの龙芯3B1500は縮小された。龙芯3B1500は、8つの4号アウトオブオーダー64ビットGS464Vプロセッサコア、9ステージパイプラインを統合し、各プロセッサコアは64KBのプライベート第一レベル命令キャッシュと64KBのプライベートプライマリデータキャッシュ、128KBプライベートセカンダリキャッシュを備えている8MB 3レベル共有キャッシュ、SMICの32nmプロセスを使用、チップ面積180mm2、トランジスタ数11億、1.5GHzでクロック、フリップチップボールグリッドアレイ（フリップチップBGA）パッケージ、チップピン数1121、パッケージサイズ40mm×40mm。シングルチップの倍精度浮動小数点演算能力は192GFlopsに達する。消費電力は30w（標準）/ 60w（ベクター）である。

インターフェイスには、HT2.0 * 2、PCI、LPC、SPI、UART、GPIO、72ビットDDR2 / 3コントローラーがある。

龙芯3A2000 / 3B2000

龙芯3A2000は2014年11月上旬に映画に配信され、2015年4月10日にブラインド映画が取得された。2015年8月18日、龙芯は記者会見を開き、新製品を正式にリリースした。2015年9月と2016年3月に、それぞれ1回目の改訂設計と2回目の改訂設計が実施された。

龙芯3A2000プロセッサは、64ビットGS464Eプロセッサコアの4つの問題の順不同の実装を4つ統合し、GS464Eマイクロアーキテクチャを使用する最初のプロセッサである。SMICの40nm CMOSプロセスで製造され、周波数は800〜1000MHz、SPEC CPU2006スコアは1GHzで6.9である。パッケージタイプFCBGA、1121ピン、パッケージサイズ40mm×40mm。 GS464Eプロセッサコアは、統合された64KBレベル1命令キャッシュ、64KBレベル1データキャッシュ、256KBレベル2キャッシュ、および4MBレベル3キャッシュを備えたGS464の改良バージョンである。特に、GS464Eプロセッサコアのストリームパフォーマンスは大幅に改善され、シングルコアSTREAMのパフォーマンスは6.3GB / sであり、これは龙芯3A1000の20倍である。パイプラインは、GS464の第9レベルから第12レベルにアップグレードされた。16GFlopsのピーク浮動小数点パフォーマンス。

インターフェースでは、龙芯3A200は2つのHT3.0インターフェース、PCIコントローラー、LPC、SPI、UART、GPIO、72ビットDDR2 / 3-1333×2コントローラーを統合する。

龙芯3A1500-I

龙芯3A1500-Iは、龙芯3A2000の陶器で密封されたバージョンで、工業用グレードのチップで、SMICの40nm LLテクノロジーを使用して、700〜1000MHzの周波数でストリーミングする。推奨周波数は800MHzである。

龙芯3A3000 / 3B3000

龙芯3A3000は2016年2月中旬に納品され、6月中旬に盲目的に封印された。2016年10月17日、龙芯3A3000は量産に入ることができる。

2017年4月26日、龙芯は記者会見を開き、龙芯3A3000プロセッサを正式にリリースした。

龙芯3A3000 / 3B3000は1.2Hz〜1.5GHzでクロックされ、4コアプロセッサであり、4つの問題のアウトオブオーダー64ビットスーパースカラープロセッサコア（GS464E）を4つ使用し、MIPS64命令セットをサポートし、Loongex®拡張命令セットLoongISA®をサポートする1.0、12ステージのスーパースカラーパイプラインを使用、各コアには2つの固定小数点ユニット、2つの浮動小数点ユニット、および2つのメモリアクセスユニットがある。各プロセッサコアには64KBプライベートレベル1命令キャッシュと64KBプライベートレベル1データキャッシュが含まれ、各プロセッサには256KBのプライベートL2キャッシュが含まれ、すべてのプロセッサコアは8MB L3キャッシュを共有する。

龙芯3A3000プロセッサの正面写真

龙芯3A2000と比較して、SMICの40nmからSTの28nm CMOSプロセスへのストリーマープロセスに加えて、プロセッサのL3キャッシュも4MBから8MBに増加した。ピーク浮動小数点パフォーマンス24GFlops。1121ピンの40mm * 40mm BGAパッケージでパッケージされ、標準消費電力は<40W@1.5GHzである。統合インターフェースはHT3.0 * 2、PCIコントローラー、LPC、SPI、UART、GPIO、72ビットDDR2 / 3-1600 * 2であり、ECCをサポートしている。龙芯3A3000の全体的なパフォーマンスは、Intel®Atom™J1900プロセッサーと同等である。
龙芯3A3000の成功後、龙芯テクノロジー株式会社胡伟武の社長はスピーチで「私たちのゴッドソン3号-龙芯の15周年」、「3A3000の一般的な処理性能は国際的な一般処理を超えた。パフォーマンスの最初のしきい値であるシングルコアSPEC CPU2006パフォーマンスは、サーバー向けのARMのハイエンドプロセッサ、Intelのローエンドシリーズ（Atomシリーズ）プロセッサとVIAプロセッサ、および3A3000のメモリ帯域幅と同等である。AMDおよびIntelのハイエンドシリーズ（コアシリーズ）と同レベルである。このパフォーマンスは、政党や官公庁に代表されるトランザクション処理アプリケーションに十分である。」[9]

龙芯3A4000 / 3B4000

龙芯の次世代高性能プロセッサは、龙芯の最新のGS464EV（GS464v）微細構造を使用している。龙芯3A4000は依然としてST FD-SOI 28nmプロセスを使用しているが、メイン周波数は2.0GHzに増加し、全体的なパフォーマンスは前世代の3A3000の2倍になった。[10]

龙芯3A4000 / 3B4000は4つのGS464EVコアを統合し、MIPS®リリース5命令セットとLoongISA®2.0自律型命令セットをサポートする。龙芯3A4000のspec2006シングルコアベーススコアintおよびfpスコアは20ポイント、IPCは10ポイント/ GHzである。通常の消費電力は、1.6GHzで40W、1.8GHzで60W、2.0GHzで80Wで、動的周波数変調をサポートしている。龙芯3A4000 / 3B4000は、256ビットのベクトルアクセラレータと、128 GFlopsのシングルチップ浮動小数点パフォーマンスを統合している。

統合インターフェースはHT3.0 * 2、LPC、SPI、UART、GPIO、64ビットDDR4-2400MHz * 2であり、ECCをサポートし、安全で信頼できるデバイスをサポートする。

龙芯3A5000 / 3C5000

龙芯の次世代高性能は、2019年末または2020年初頭にストリーミング配信される予定である。3A4000プロセッサのマイクロ構造GS464EVは14 / 12nmプロセスで使用され、メイン周波数は2.5GHzに増加する。3A5000は4コアプロセッサだが、3C5000は16コアプロセッサになる。

龙芯チップセットシリーズ

龙芯7A1000

龙芯7A1000タイプブリッジは、龙芯3プロセッサの最初のチップセット製品であり、AMD RS780（E）+ SB710チップセットを置き換えて、龙芯プロセッサにNorth-South Bridge機能を提供することを目標としている。主な機能は次のとおりである。

3A3000でマザーボードに統合された龙芯7A1000ブリッジの正面写真

統合16ビットHT3.0インターフェイス、コアGC1000 GPU、ディスプレイコントローラー、デュアルDVOディスプレイのサポート、16ビットDDR3メモリコントローラー、3つのX8PCIE2.0インターフェイス、各X8インターフェイスは2つの独立したインターフェイスに分割可能X4インターフェース。2つのX4PCIE2.0インターフェイスは、6つの独立したX1インターフェイスに分割できる。3 SATA2.0、6 USB 2.0、2 RGMIIギガビットイーサネットインターフェイス、HDA / AC97、RTC / HPETモジュール、1個のフル機能UARTコントローラー、6個のI2Cコントローラー、1個のLPCコントローラー、1個SPIコントローラー、複数のGPIOピン。

今後の龙芯3A4000はAMDのRS780チップセットを使用しなくなるが、ブリッジの選択でAMDの影響を受けないようにするために、龙芯7Aはブリッジとして使用される。

龙芯7A2000

龙芯の次世代のサポートブリッジとして、龙芯7A2000は、龙芯7A1000のアップグレードバージョンである。7A1000と比較して、7A2000 PCIEコントローラーコードは龙芯によって作成され、PCIE Gen3である。STの28nm FD-SOIプロセスを使用したGPUは、自社開発のGPUである。

LoongISA®

LoongISA®（LISA®）は、龙芯に登録された自律CPU命令セットだ（MIPS®命令セット形式のMIPS®命令セットから拡張されている）。現在、LISA®には2つのバージョンがあり、それぞれLISA®1.0とLISA®2.0である。LISA®は、龙芯の公式情報に基づいて取扱説明書を発行する。

龙芯は隠れたプロセッサーを発表しなかった

龙芯の第1、第2、および第3系列のプロセッサーに加えて、龙芯の開発中にいくつかの実験的プロセッサーが開発されており、大量生産はなく、スラグのないものもある。そのようなプロセッサがいくつか見つかった。

Godson-T

開発プロセスでは、龙芯プロセッサーはかつてスーパーコンピューターとして使用されていたが、Godson-Tという名前の64コアマルチコアプロセッサーの開発を望んでいる。Godson-Tは、コンピューティングアドバンストマイクロシステムズ研究グループによって開発され、RTL検証は2008年に実施された。RTLコードは2008年12月に作成された。2010年5月、GodSon-Tのプロトタイプチップである16コアのGodSon-TIは、130ナノメートルプロセスで出荷された。2010年10月17日、試運転は成功した。

龙芯がR＆Dの焦点をプロセッサコアのパフォーマンスの向上に再び向けたため、Godson-Tプロセッサは廃止された。

Godson-X

龙芯の大量生産プロセッサはすべて、MIPS命令セットを使用している。ただし、x86命令セットは主流のデスクトッププロセッサ市場で使用されているため、龙芯は知的財産および特許にx86命令セットを使用できない。既存のエコシステムとの互換性を実現するために、龙芯3Aシリーズはx86用のバイナリ変換命令とarm命令を実装している。開発プロセス中に、龙芯はx86命令セットを使用してプロセッサプロトタイプGodson-Xを開発した。

このプロジェクトは2005年7月に始まった。Godson-Xプロセッサの元の設計は、x86命令と互換性のあるFPGAプロトタイププロセッサであり、FPGAプロトタイププロセッサでWindows XPを起動できる。そこで、最初のステップであるコンピューティングアドバンストマイクロシステムズ研究グループ、マイクロアーキテクチャーのGodson-Xを慎重に設計した。Godson-Xは、龙芯2設計に基づく4送信スーパースカラーX86プロセッサである。x86と互換性があり、Intel MMX命令、SSE命令セット、x87浮動小数点命令をサポートしている。サイクルレベルのシミュレーションプログラムによる2番目のステップでは、プロセッサの各ビートの状態をシミュレートする。その後、コンピューティングアドバンストマイクロシステムズ研究グループはシミュレーターを使用してWindows XPを起動しようとした。最後に、コンピューティングアドバンストマイクロシステムズ研究グループのRTL調整とFPGAシミュレーションの完了時間は2006年7月だった。プロセッサはFPGAプロトタイプであり、ストリーミングされたことはあらない。

龙梦一号

中科龙梦（現在は航天龙梦と改名）は、龙芯の初期IPコアを使用して、Fiscalcontrollerレジスタ用の龙梦一号SOCを開発した。税制のSoC専用チップは、MCUとして「龙芯一号」プロセッサコアを使用し、オンチップバスとしてAHB（Advanced High Performance Bus）+ APB（Advanced Peripheral Bus）を使用する。

GS32I-400 SOC

GS32Iは龙芯2に従って設計されたSOCチップで、周波数は400MHz、統合16Kデータバッファと16K命令キャッシュ、パッケージサイズ19mmx19mm、424ピンBGAパッケージである。内部インターフェイスには、統合PCIコントローラー、2つの100Mネットワークコントローラー、USB、AC97コントローラー、PCMCIAコントローラー、SDRAMコントローラー、EPROMコントローラーがある。

プロセッサ仕様
シリーズモデル周波数
（MHz）アーキテクチャ
マイクロアーキテクチャ年コアの数プロセス
（nm）トランジスタ
（百万）チップサイズ
（mm2）力
（W）電圧
（V）キャッシュ（KiB）ピーク浮動小数点パフォーマンス
（GFLOPS）性能
[ SPEC CPU2000] 備考
最初のレベル（シングルコア）第二レベル第三レベル
データ指令
Godson 1 266 MIPS-II 32-bit N/A 2001 1 180 22 71.4 1.0 不明 8 8 N/A N/A 0.6 19/25 [11]
FCR_SOC 266 MIPS-II 32-bit N/A 2007 1 180 不明不明不明不明 8 8 N/A N/A 0.6 不明 [12][13]
2B 250 MIPS-III 64-bit N/A 2003 1 180 不明不明不明不明 32 32 N/A N/A 不明 52/58
2C 450 MIPS-III 64-bit N/A 2004 1 180 13.5 41.5 不明不明 64 64 N/A N/A 不明 159/114
2E 1000 MIPS-III 64-bit GS464 (r1)(原型) 2006 1 90 47 36 7 1.2 64 64 512 N/A 不明 503/503
龍芯1 1A 300 MIPS32 GS232 2010 1 130 22 71.4 1.0 不明 16 16 N/A N/A 0.6 不明 [14]
1B 266 MIPS32 GS232 2010 1 130 13.3 28 0.6 不明 8 8 N/A N/A 不明不明 [15]
1C 300 MIPS32 GS232 2013 1 130 11.1 28.3 0.5 不明 16 16 N/A N/A 不明不明 [16]
1C101 8 MIPS32 GS132R 2018 1 130 不明不明不明不明 N/A N/A N/A N/A 不明不明 [17]
1D 8 MIPS32 GS132 2014 1 130 1 6 3 × 10−5 不明 N/A N/A N/A N/A 不明不明 [18]
龍芯2 2F 1200 MIPS-III 64-bit GS464 (r1) 2007 1 90 51 43 5 1.2 64 64 512 N/A 3.2 不明 [19]
2G 1000 MIPS64 GS464 (r2) 2012 1 65 不明不明不明 1.15 64 64 4096 N/A 不明不明 [20]
2GP 800 MIPS64 GS464 (r2) 2013 1 65 82 65.7 8 1.15 64 64 1024 N/A 3.2 不明
2I
2H 1000 MIPS64 GS464 (r2) 2012 1 65 152 117 5 1.15 64 64 512 N/A 4 不明
2K1000 1000 MIPS®64 Release 2 LoongISA® 1.0 GS264E 2017 2 40 1900 79 5 1.1 32 32 256 × 2 1024 8 不明 [21]
龍芯3 3A1000 1000 MIPS®64 Release 2
LoongISA®1.0

GS464 (r2) 2009 4 65 425 174.5 10 1.15 64 64 256 × 4 N/A 16 568/788, シングルコア 2.4/2.3 (SPEC CPU2006) [22]
3B1000 1000 MIPS®64 Release2
LoongISA®1.0

GS464 (r2) 2010 4+4 65 ＞ 600 不明 20 1.15 64 64 128 × 8 N/A 不明不明 [23]
3B1500 1200–1500 MIPS®64 Release 2
LoongISA®1.0

GS464V 2012 4+4 32 1140 142.5 30(典型的な)
60(ベクトル) 1.15–1.35 64 64 128 × 8 8192 150 不明 [24][25]
3A1500-I 800–1000 MIPS®64 Release2
LoongISA®1.0

GS464E 2015 4 40 621 202.3 15 1.15–1.25 64 64 256 × 4 4096 16 シングルコア 6~7(SPEC CPU2006) [26]
3A2000
3B2000
3A3000 1500 MIPS®64 Release 2
LoongISA®1.0

GS464E 2016 4 28 ＞ 1200 155.78 30 1.15–1.25 64 64 256 × 4 8192 24 1100/1700, シングルコア 11/10 & マルチコア 36/33(SPEC CPU2006) [27][28]
3B3000 GS464E
3A4000 1800-2000 MIPS®64 Release 5
LoongISA®2.0

GS464EV(GS464v) 2019 4 28 ? ? 40 @ 1.6GHz
60@1.8GHZ

80@2.0GHz

0.95-1.25 64 64 256 x 4 8192 128 シングルコア >20/>20 (SPEC CPU2006)(@2.0GHz)
3B4000

注記

^ “龙芯处理器英文品牌定名Loongson(组图)业界科技时代新浪网”. tech.sina.com.cn. 2006年11月20日閲覧。 ^ 龙芯故事 – 关于那些不明真相的群众对龙芯的疑惑，龙芯有关MIPS指令集使用説明。 ^ 兪錚，中科院超龙计划立项龙芯三号造超级计算机，新華网 ^ “基于龙芯平台的Windows CE的移植与优化–《中国石油大学》2009年硕士论文”. cdmd.cnki.com.cn. 2018年7月2日閲覧。 ^ 李斌，苗苗，中国研发出新一代通用芯片——龙芯2E Archived 2016-09-19 at the Wayback Machine.，新華网 ^ 意法半导体3000万购买龙芯2E生产销售权 Archived 2007-01-05 at the Wayback Machine.，駆動之家 ^ 維游 (2008年1月1日). “首款龙芯万亿次高性能计算机系统研制成功”. 龙訊. 2008年1月19日時点のオリジナルよりアーカイブ。2008年1月16日閲覧。 ^ “KD-50-I 主頁”. 2008年10月29日時点のオリジナルよりアーカイブ。2008年11月13日閲覧。 ^ “[两万字特稿致龙芯15周年胡伟武披露龙芯3号开发历程]”. cnBeta. 2017年1月12日閲覧。 ^ 龙芯3A4000 与龙芯3A3000 的性能比対及宇航芯片介紹，論文介紹節選。 ^ HU Wei-Wu (2003). TANG Zhi-Min. “Architecture of the Godson-1 Processor”. Chinese Journal of Computers (4). ^ 陳杰 (2007). 章軍. “一种集成“龙芯1号”IP核的SoC的体系结构”. 計算机工程与応用 (19). ^ “成功研制以龙芯为内核的税控SOC芯片苏州中科集成电路设计中心”. http://www.szicc.com.cn. 2019年5月8日閲覧。 ^ “龙芯1A龙芯官方网站-[龙芯官方网站]”. loongson.cn. 2019年5月8日閲覧。
^ “龙芯1B_龙芯官方网站-[龙芯官方网站]”. loongson.cn. 2019年5月8日閲覧。
^ “龙芯1C_龙芯官方网站-[龙芯官方网站]”. loongson.cn. 2019年5月8日閲覧。
^ “龙芯1C101_龙芯官方网站-[龙芯官方网站]”. loongson.cn. 2019年5月8日閲覧。
^ “龙芯1D_龙芯官方网站-[龙芯官方网站]”. http://www.loongson.cn. 2019年5月8日閲覧。
^ “龙芯2F_龙芯官方网站-[龙芯官方网站]”. http://www.loongson.cn. 2019年5月8日閲覧。
^ “龙芯2G用户手册”. 2012年3月18日閲覧。
^ “龙芯2K1000_龙芯官方网站-[龙芯官方网站]”. http://www.loongson.cn. 2019年5月8日閲覧。
^ “龙芯3A1000_龙芯官方网站-[龙芯官方网站]”. http://www.loongson.cn. 2019年5月8日閲覧。
^ “龙芯3B1000用户手册”. 2011年6月10日閲覧。
^ “龙芯3B1500”. 2012年5月14日閲覧。
^ “Bonito 3c780e Start.S (1.5Ghz@1.35v)”. 2012年5月14日閲覧。
^ “龙芯3A2000/3B2000”. 2014年4月13日閲覧。
^ “龙芯3A3000处理器芯片流片成功”. 2016年4月18日閲覧。
^ “龙芯3A3000/3B3000”. 2016年9月20日閲覧。

関連項目
スーパーコンピュータ
外部リンク

ウィキメディア・コモンズには、龍芯に関連するカテゴリがあります。
龙芯公式ウェブサイト
龙芯オープンソースコミュニティ
龙芯Q＆Aコミュニティ
龙芯開発者モール
龙芯コミュニティオープンソースプロジェクトのソースライブラリ
北京神州龙芯集積回路設計株式会社
狗剩百科事典，龙芯非公式の百科事典
評価報告書
太平洋電腦網－国产CPU性能揭密！PC-online首测2007龙梦盒子
央視-昔日“龙芯”今何在(2015)
央視-昔日“龙芯”今何在(2017)
龙芯3A3000桌上型首賣測試.2017-09-25
龙芯推出新一代处理器，离Intel、AMD还有多大差距？
龙芯故事 – 史上最全龙芯处理器家谱
龙芯故事 – 这可能是最全面的龙芯3A3000处理器评测
龙芯故事 – 搭载3A3000四核处理器，龙芯15寸笔记本开箱
表話編歴
MIPSマイクロプロセッサ
カテゴリ: 加筆依頼ミップス・テクノロジーズマイクロプロセッサ

最終更新 2024年7月7日 (日) 07:58 （日時は個人設定で未設定ならばUTC）。
テキストはクリエイティブ・コモンズ表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。』
2021年のIntel CPU並みの性能を実現した「龍芯3C6000/2K3000/3B6000M」

7月 30, 2025

コンピューター、関連, CPU、関連, 中国の戦略

2021年のIntel CPU並みの性能を実現した「龍芯3C6000/2K3000/3B6000M」
https://pc.watch.impress.co.jp/docs/news/2026807.html

『劉尭2025年6月30日 11:28

3C6000シリーズ

　中国・龍芯中科(Loongson Technology)は26日(現地時間)、LoongArchアーキテクチャに基づくサーバー向けCPU「3C6000」シリーズ、およびIoT/エッジ向けCPU「2K3000」、「3B6000M」を発表した。

　3C6000は1つのシリコンで16コア/32スレッドを実現したCPU。独自のインターフェイスによるチップレット構成も可能で、32コア/64スレッドの「3C6000/D」および60コア120スレッドまたは64コア128スレッドの「3C6000/Q」も1パッケージで実現できるという。

　ラボでのベンチマークによると、16コアモデルの性能はIntelが2021年にリリースした「Xeon Silver 4314」、32コアモデルの性能は「Xeon Gold 6338」相当、64コアモデルの性能は40コアの「Xeon Platinum 8380」を超えるという。

　また、Intelの第3世代Xeonスケーラブルプロセッサの出荷状況を鑑みると、3C6000の総合性能は2023年のメインストリーム製品並みだとしている。

CPU 整数演算浮動小数点
1-way 3C6000/S 2.2GHz 73.2 58.5
2-way 3C6000/D 2.1GHz 284 261
2-way 3C6000/Q 2.1GHz 450 283
4-way 3C6000/D 2.1GHz 547 412

　一方、3B6000Mについては、8基のLA364Eコアを内蔵し、2.5GHz駆動時でSPEC CPU 2026 Baseシングルコア固定小数点のスコアが30になるとしている。GPUも自社開発の「LG200」で、ハードウェアエンコーダ、4K/60Hz出力に対応。さらに、SM2/3/4ハードウェア暗号化アクセラレーションもサポートする。

2K3000および3B6000Mシリーズ

龍芯、独自CPU命令アーキテクチャ「LoongArch」を採用したSBC

関連リンク

龍芯中科のホームページ
ニュースリリース(簡体中国語)』
アップル A16

2月 18, 2025

コンピューター、関連, スマホ、関連, CPU、関連, GPU、関連

アップル A16
https://en.wikipedia.org/wiki/Apple_A16

『フリー百科事典『ウィキペディア』より

アップル A16 バイオニック

一般情報
発売 2022年9月7日
販売元アップル社
デザイン：アップル社
共通メーカー
TSMC
製品コード APL1W10 [ 1 ]
パフォーマンス
最大CPU クロックレート 2.02GHz～3.46GHz
キャッシュ
L1キャッシュ P コアあたり 320 KB (192 KB 命令 + 128 KB データ)
E コアあたり 224 KB (128 KB 命令 + 96 KB データ)
L2キャッシュ 16 MB (パフォーマンスコア)
4 MB (効率コア)
最終レベルキャッシュ 24MB
アーキテクチャと分類
応用携帯
テクノロジーノード 4nm（N4P）
マイクロアーキテクチャ
エベレスト
鋸歯状
説明書 ARMv8.6-A [ 2 ]
物理的仕様
トランジスタ
160億
コア
6 コア:
2 パフォーマンス
4 効率
メモリ（RAM）
6GB
グラフィックプロセッサ Apple 設計の 5 コア GPU @ 1398 MHz
製品、モデル、バリエーション
変異体
Apple S9/S10 SiP（A16の高効率コアを活用したカットダウンバージョン）
歴史
前任者アップル A15 バイオニック
後継者 Apple A17 Pro ( iPhone 15 Pro、iPhone 15 Pro Max )、Apple A18、Apple A18 Pro ( iPhone 16、iPhone 16 Plus、iPhone 16 Pro、iPhone 16 Pro Max )

Apple A16 Bionicは、 Apple Inc.が設計し、TSMCが製造したAppleシリコンシリーズの一部である64ビット ARMベースのシステムオンチップ（SoC）です。iPhone 14 Pro、14 Pro Max、15、15 Plusに搭載されています。[ 3 ]

デザイン

Apple A16 Bionicは、Apple設計の64ビット6コアCPUで、ARMv8.6-A [ 2 ]を実装し、 3.46GHzで動作する2つの「Everest」[ 4 ] [ 5 ]高性能コアと、2.02GHzで動作する4つの「Sawtooth」 [ 4 ] [ 5 ] 省エネコアを備えており、iPhone 14のA15プロセッサと似た設計となっている。

Appleは、A16は競合製品よりも約40％高速であり[ 3 ] 、新しい効率コアも搭載しており、その大きな利点は、市場に出回っている他の携帯電話の最高効率コアの3分の1の電力しか使用しないことであると主張している。

A16には160億個のトランジスタが搭載されており、 A15の150億個から6.7%増加している。

これには、「Apple Neural Engine」として知られる16個のコアを備えた改良されたニューラルプロセッシングユニット（NPU）、改良された計算写真機能を備えた新しい画像信号プロセッサ（ISP）、およびAppleが「ディスプレイエンジン」と呼ぶ画面関連機能を処理する新しいモジュールが含まれている。[ 3 ]

A16はHEVC、H.264、ProResコーデックのハードウェアビデオエンコードとデコードをサポートしています。[ 8 ]

iPhone 14の発表イベントで、AppleはA16チップをスマートフォン初の4nmプロセッサとして宣伝した。[ 3 ]

しかし、TechInsightsの分析によると、A16はTSMCのN4Pプロセスで製造されたことが判明した。[ 9 ]

「N4P」と呼ばれるこのプロセスは、事実上の5nm製造プロセスであり[ 10 ] 、同じ5nmファミリーの以前の製品であるN5、N5P、N4と比較して、パフォーマンス、電力、密度が向上している。[ 11 ] [ 12 ] [ 13 ] [ 10 ]

2024年9月、TSMCは台湾の主要工場と同じN4Pプロセスを使用してアリゾナ工場でA16チップの生産を開始しました。 [ 14 ]

GPUとメモリ

A16にはAppleが設計した5コアGPUが統合されており、A15のGPUと比較して50%多くのメモリ帯域幅を備えていると言われています。[ 3 ] [ 15 ]

A16のメモリはLPDDR5にアップグレードされ、帯域幅が50%向上し、16コアのニューラルエンジンが7%高速化され、17兆TOPS（1秒あたり17兆回の演算）が可能になった。

比較すると、A15のニューラルエンジンは15.8 TOPSだった。SoCのすべてのバリエーションには6GBのメモリが搭載されている。[ 3 ] [ 6 ]

AppleのAシリーズチップの以前の世代とは異なり、A16は従来のPoP DRAMではなく、A12X / M1パッケージの垂直バージョンを使用している。

このシステムはエポキシガラス基板に基づいており、片側にDRAM、もう片側にA16 SoCが搭載されており、おそらく2つを接続するためにエポキシガラスを貫通するビアがある。

PoPワイヤが削除されたため、A16のDRAM読み取り/書き込みトランザクションあたりのエネルギー消費量はわずかに削減された。[ 16 ]

ISPとディスプレイエンジン

A16チップに搭載された新しい画像プロセッサ（ISP）は、計算写真機能を向上させました。

iPhone 14 Proに搭載された高解像度の画像センサーに対応するように設計されており、1枚の写真につき最大4兆回の演算を実行できます。[ 3 ]

ディスプレイエンジンは、Apple Aシリーズで初めて採用されたものです。

これにより、「常時表示」機能の性能が向上し、1Hzのリフレッシュレート、ディスプレイのピーク輝度の向上、デバイスディスプレイ上のグラフィックスや画像のレンダリングの粗いエッジを滑らかにするアンチエイリアシング技術の改良などのタスクも処理されます。[ 3 ]

ファームウェア

新しい起動音とシャットダウン音が追加されましたが、アクセシビリティでのみ利用可能です。[ 17 ] [ 16 ]

Apple A16 Bionicを搭載した製品

iPhone 14 Pro & 14 Pro Max
iPhone 15 & 15 Plus

参照

Apple Silicon は、Appleが自社製品向けに設計したARMベースのプロセッサシリーズです。
Armv8-Aプロセッサの比較

参考文献

「iPhone 14 Pro Max チップ ID」。iFixit。2022年9月18日。 2022年10月18日閲覧。
“llvm-project/llvm/unittests/TargetParser/TargetParserTest.cpp at main · llvm/llvm-project · GitHub”. GitHub . 2024 年 9 月 10 日2024 年9 月 10 日に取得.
Hristov, Victor (2022年9月17日).「A16 Bionicの解説：Appleのプログレードモバイルチップの新機能は？」.Phone Arena.2022年9月11日時点のオリジナルよりアーカイブ2024年2月20日閲覧。
「iPhone14 Pro向けA16のCPUコアのコードネームが明らかに―リーカーが投稿」。iPhoneWired。2022年9月12日2022年9月13日時点のオリジナルよりアーカイブ2022年9月13日閲覧。
Buckner, Sanjay (2022年9月13日).「AppleのA16 Bionicが新しいコアを搭載、コードネームは山にちなんで」。NewsRevive。2022年9月13日時点のオリジナルよりアーカイブ2022年9月13日閲覧。
「A16チップセットを搭載したiPhone 14 Pro MaxがGeekbenchに登場、パフォーマンスは最小限に改善」。GSMArena。2022年9月10日時点のオリジナルよりアーカイブ。2022年9月11日閲覧。
「AArch64: 新しいApple CPUのサポートを追加」 . github.com . 2022年9月24日閲覧。
「iPhone 14 Pro – 技術仕様」。Appleサポート。 2022年11月5日閲覧。
「Apple APL1W10 A16 Bionic TSMC N4P FinFETアプリケーションプロセッサのデジタルフロアプラン分析」。TechInsights。2023年2月14日閲覧。
Cross, Jason (2023年1月5日).「Appleの3nm iPhoneチップの優位性（そしてそれが本当に重要でない理由）」.MacWorld2023年2月23日閲覧。
“5nmテクノロジー” TSMC . 2022年9月8日時点のオリジナルよりアーカイブ。2022年9月10日閲覧。
Schor, David (2021年10月26日). 「TSMC、パフォーマンスが向上した新しいN4Pノードで5nmファミリーを拡張」 . WikiChip Fuse . 2022年5月29日時点のオリジナルよりアーカイブ。 2022年9月11日閲覧。
“N3E が N3 に取って代わり、さまざまなフレーバーが登場” WikiChip Fuse . 2022年9月4日. 2022年9月10日時点のオリジナルよりアーカイブ。 2022年9月11日閲覧。
「Apple、米国のTSMC工場にA16 SoCの生産を発注」。notebookcheck.net 。 2024年9月19日閲覧。
「Apple A16 Bionic：新しいチップについて知っておくべきことすべて」。Trusted Reviews。2022年9月7日。2022年9月11日時点のオリジナルよりアーカイブ。 2022年9月11日閲覧。
「iPhone 14 Proの心臓部、「A16 Bionic」を解析する」.EE Times Japan(日本語)。2023 年2 月 15 日に取得。
Rossignol, Joe (2022年9月7日). 「iPhone 14は電源を入れるとMacのような起動音を発する」。MacRumours 。 2024年2月20日閲覧。
先行
アップル A15 バイオニック
アップル A16 バイオニック
2022 後継者
アップル A17 プロ
ヴte
アップル社
ヴte
アップルシリコン
ヴte
Appleハードウェア
ヴte
アプリケーション ARMベースチップ
カテゴリー:2022年のコンピュータ関連の紹介アップルシリコン
このページの最終更新日は 2025年2月9日 (日) 07:57 (UTC)です。
テキストは、クリエイティブ・コモンズ表示-継承 4.0 ライセンスの下で利用可能です。追加の条件が適用される場合があります。このサイトを利用することで、利用規約とプライバシーポリシーに同意したことになります。Wikipedia® は、非営利団体であるWikimedia Foundation, Inc.の登録商標です。』
そろそろ、ハード的な限界の見えてきた集積密度

2月 15, 2025

コンピューター、関連, CPU、関連, GPU、関連

そろそろ、ハード的な限界の見えてきた集積密度
http://blog.livedoor.jp/goldentail/archives/36186828.html

『2025 2月14

電子回路の細密化というのは、昔は倍々で進んできたのですが、そろそろ限界が近いようです。今の先端は、量産ベースで4nm(ナノミリ、1/1000ミリの単位)、研究ベースで2nmです。流通している殆どの高性能と言われるCPU、GPUの集積密度は、7nmですね。ちなみに、中国に輸出が許可されている露光装置(シリコン・ウェーハーに電子回路パターンを焼く装置。オランダのAMSLの独壇場の市場です。製造できるのが、そこしかありません)は、14nmまでの集積密度で、それ未満の集積密度で電子回路の焼付ができません。そのはずだったのですが、ハーウェイの発売したスマホ、Mate 60 Proに7nmの集積密度のチップが使われていて話題になりました。ハーウェイは、このチップの製造を、中国の半導体メーカーであるSMICへ発注したと言われているからです。

このように、集積密度=処理性能という図式が成立しているのですが、これが物理的に限界に来ています。この集積密度だと、余りにも回路間の幅が無いので、電子レベルで干渉を受けて、誤動作したり、高い電力消費によって、発熱が酷い事になり、回路の劣化が進み、寿命が実用に適さなくなるからです。集積密度が処理性能の向上に重要な理由は単純で、力技でそのチップで動く、全ての処理を高速で行えるようになるからです。つまり、ソフト側で工夫をしなくても、単純に処理スピードが上がります。

ところが、最近、パソコン用に開発されたGPUや、CPUが、今までに無いような故障の仕方をしています。例えば、RX5000シリーズという、発売されたばかりのnVIDIAのGPUですが、余りにも消費電力が大きいので、コネクタ部分が焼き切れるという、今まで聞いた事の無い故障が報告されています。消費電力が電子レンジ並みに大きいので、そういう発熱体を、精密部品の塊である基盤に接続して使う事自体が、無理があるのですが、処理スピードを上げるには避けられない問題です。しかも、冷却ファンと、放熱板の重みで、マザーボードがたわむくらい巨大化しています。

また、CPUの方も、消費電力が大きくなり、発熱が高熱になる傾向は同じで、こっちも、CPUと基盤の接点部分が焼けるという、余り聞いた事の無い故障が報告されています。こういう事故は、主に自作パソコンなどで、グリスの塗りムラなどで、皆無ではなかったのですが、あくまで製作サイドの組み立てミスに起因する事が多く、普通は無い故障です。あ、例外的にPentium4という、Intelの古い規格のCPUが、無理やりにクロック周波数を上げて、処理スピードを稼いでいて、冷却が弱いと煙を上げて燃えるという事がありましたけどね。自作派から地雷CPUとして、認識されていたシリーズです。

つまり、この発熱という問題が、物理的に集積密度の限界を示しつつあり、パソコンの性能が上がるに比例して、事故る確率と寿命の短命化が伸びています。集積密度が上がらなくなると、処理方法でスピードの向上を図るしか手段が無くなり、ハードウェア的には、多積層化といって、回路の上に別の回路パターンを焼き付けて、集積密度を上げずに処理スピードを稼いだり、処理の重い事は、別回路で専用に処理したりして工夫しています。ただし、あくまでも、工夫なので、以前のように、シリーズが更新されると、当たり前のように、旧世代より20%も30%も、全体の処理スピードが上がるという事は無くなりました。あくまで、特定の処理に限ってスピードが改善されるとか、そういう話になっています。

処理性能的には、ドン詰まりの上、昔のパソコンより、発熱が異常に伸びているので、故障しやすく、寿命は短くなっています。今のまま、電子回路を使って処理する方法は、この辺りが限界でしょう。また、このまま、電力に頼った処理を続けていると、EVなどを除いたIT業界だけの電力消費だけで、世界の発電能力を限界突破してしまいます。そこで、今後は、IWONという光電融合技術を用いた、デバイスの変換が進むと見られています。オン・オフの信号を伝えるには、電気信号でなくても、光の明滅でも良いわけで、光は基本的に発熱が低いです。全ての部分を置き換える事は、今のところ不可能ですが、低電力・高速化が期待できる新しい技術です。

今のインフラを維持し続けるだけでも、世界中の電力の消費量は、急カーブを描いて増え続ける事が予想されているので、発電量限界が、技術革新のボトルネックになる世界は、そう遠くない未来です。その時の解決の可能性が、電子回路に代わる光回路の導入です。
「時事雑感」カテゴリの最新記事

凄く、心配になってきたイーロン・マスク。
米国国際開発庁(USAID)が、バラ撒いていた公金
ディープラーニングが成果を出す仕組みを、実は設計者は把握していない。
皆さーん。幸福なのは義務なんです。果たしてますかぁ～。
揺り籠から墓場までの末路

タグ：#電子回路#光回路#IWON』
ARMアーキテクチャ

2月 15, 2025

コンピューター、関連, CPU、関連
ARMアーキテクチャ
https://ja.wikipedia.org/wiki/ARM%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3

Arm、フレキシブルな32bitプロセッサ「PlasticArm」製造成功
https://www.itmedia.co.jp/news/articles/2107/23/news040.html

ARM vs. Intel：プロセッサアーキテクチャの覇権はどちらの手に？（前編）
https://edn.itmedia.co.jp/edn/articles/1109/27/news118_3.html

『出典: フリー百科事典『ウィキペディア（Wikipedia）』

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索?: “ARMアーキテクチャ” – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2014年3月)
ARMアーキテクチャ
開発者 ARMホールディングス
ビット数 32ビット、64ビット
発表 1983年
バージョン ARMv9[1]
デザイン RISC
タイプ Register-Register
エンコード Fixed
ブランチ Condition code
エンディアン Bi
拡張 Thumb, Jazelle, VFP, NEON, SVE, SME
レジスタ
16（32ビット）、31（64ビット）
ARMアーキテクチャ（アーム[2][3][4][5]アーキテクチャ）とは、ARMホールディングスの事業部門であるARM Ltd.により設計・ライセンスされているアーキテクチャである。組み込み機器や低電力アプリケーションからスーパーコンピューターまで様々な機器で用いられている。

概要
ARMアーキテクチャは消費電力を抑える特徴を持ち、低消費電力を目標に設計されるモバイル機器において支配的となっている。本アーキテクチャの命令セットは「（基本的に）固定長の命令」「簡素な命令セット」というRISC風の特徴を有しつつ、「条件実行、定数シフト/ローテート付きオペランド、比較的豊富なアドレッシングモード」といったCISC風の特徴を併せ持つのが特徴的だが、これは初期のARMがパソコン向けに設計された際、当時の同程度の性能のチップとしてはかなり少ないゲート数（約25,000トランジスタ）で実装されたチップの多くの部分を常に活用する設計として工夫されたもので、回路の複雑さを増さないという方向性だというように見れば、CISC風の特徴というよりむしろRISC風の特徴とも言える。このような設計が、初期の世代の実装において、（性能の割に）低消費電力、小さなコア、（RISCとしては）高いコード密度といった優れた特性に結びつき、広く普及する原動力となった。

2005年の時点で、ARMファミリーは32ビット組込みマイクロプロセッサ（乃至、特にマイクロコントローラ）のおよそ75%を占め[6]、全世界で最も使用されている32ビットCPUアーキテクチャである[要出典]。ARMアーキテクチャに基づくCPUコアは、PDA・携帯電話・メディアプレーヤー・携帯型ゲーム・電卓などの携帯機器から、ハードディスク・ルータなどのPC周辺機器まで、あらゆる電子機器に使用される。2015年現在、携帯電話では9割超のシェアがある[7]。

携帯機器や電子機器の高性能化に伴いARMコアの出荷数は加速度的に伸びており、2008年1月の時点で100億個以上[8]、2010年9月の時点で200億個以上[9]が出荷されている。ARMアーキテクチャを使用したプロセッサの例としては、テキサス・インスツルメンツのOMAPシリーズやマーベル・テクノロジー・グループのXScale、NVIDIAのTegra、クアルコムのSnapdragon、フリースケールのi.MXシリーズ、ルネサスエレクトロニクスのRZファミリ、Synergyなどがある。

既存のARMプロセッサは組み込みとクライアントシステムに特化していたため全て32ビットであるが、顧客からは電力効率に優れるARMアーキテクチャのサーバへの応用を望む声が高まり[要出典]、ARM社は2011年10月27日、ARMの64ビット拡張であるAArch64(ARM64)を実装したARMv8アーキテクチャを発表した[10]。

歴史
ARMの起源は、1980年代初頭のイギリスのコンピュータ業界に見出すことができる。1983年、イギリスのエイコーン・コンピュータ(Acorn Computers、エイコーン)が画期的なプロジェクト、Acorn RISC Machine（ARM）を開始した。このプロジェクトは、BBC Microの成功を受けて、エイコーンが次世代マシンの開発を目指す中で生まれた。当時、エイコーンは既存の6502プロセッサの性能限界に直面しており、より効率的で低消費電力のプロセッサ、具体的には高性能な32ビットプロセッサの開発が急務となっていた[11]。

プロジェクトの中心となったのは、ソフィー・ウィルソン(Sophie Wilson)とスティーブ・ファーバー(Steve Furber)を含む少数の技術者たちだった。ウィルソンは命令セットアーキテクチャの設計を担当し、ファーバーはハードウェア設計をリードした。彼女らは、バークレーRISC（英語版）とスタンフォード大学の研究に影響を受け、RISC（縮小命令セットコンピューティング）アーキテクチャを採用することを決定した。RISCアーキテクチャの単純な命令セットにより、高速で効率的な処理の実現が期待された[11]。

開発プロセスは綿密に進められた。まず、既存の商用プロセッサの性能を詳細に分析し、次にシミュレータを使用して新しいアーキテクチャをテストした[11]。

開発チームはVLSI Technology（英語版）社を「シリコンパートナー」として選び、エイコーンが設計を提供し、VLSIがレイアウトと製造を担当した。1985年4月26日に受け取った最初のARMシリコンチップは正常に動作し、これが「ARM1」と呼ばれるバージョンで、6MHzで動作していた。このARM1は、BBC Micro用のセカンドプロセッサとして初めて実用化され、サポートチップ(MEMC (MEMory Controller), VIDC (VIDeo and sound Controller), IOC (Input Output Controller))の開発を促進し、ARM2の開発にも使用された[12] 。また、BBC BASIC（英語版）は後にアセンブリ言語で書き直され、これにより命令セットに精通した開発者たちは非常に高密度なコードを作成することができた。このARM版BBC BASICは、ARMエミュレータのテストにおいても非常に優れたベンチマークとなった[11]。

このARM1でのシミュレーション結果を元に、1986年末にARM2が8MHzで登場し、翌年には10〜12MHzで動作するバージョンがリリースされた。ARM2には大きなアーキテクチャの改良が施され、以前はソフトウェアで処理されていた乗算が、ブースの乗算アルゴリズムによりハードウェアで実装された。また、新たに追加された「FIQ（Fast Interrupt reQuest）モード」により、割り込み処理時にレジスタ8〜14が自動的に置き換えられるようになり、割り込み処理が高速化された[11]。

ARM2は、1987年に発売されたAcorn Archimedesシリーズのパーソナルコンピュータ（A305、A310、A440）で初めて使用された。Dhrystoneベンチマークによれば、ARM2は7MHzで動作するMC68000ベースのシステム（AmigaやMacintosh SEなど）に比べ約7倍の性能を誇り、16MHzのIntel 80386とほぼ同等の速度を持っていた。高価なSun SPARCやMIPS R2000のRISCベースワークステーションに次ぐ性能を示しながらも、デスクトップパソコンと同程度の価格で提供された。ARM2は、高速I/Oに対応するよう設計され、他のシステムに見られるDMAコントローラのようなサポートチップを省略し、設計を大幅に簡略化したことで、ワークステーション並みの性能を手頃な価格で実現した[11]。

ARM2は32ビットのデータバス、26ビットのアドレス空間、そして16個の32ビットレジスタ（プログラムカウンタを含む）を備えていた。ARM2のトランジスタ数はわずか30,000個で、Motorola 68000の68,000個と比べて非常に少なかった。この簡素化は、ARM2がマイクロコードを持たないことや、キャッシュを搭載していないことによるもので、その結果、低消費電力と簡単な熱処理が可能となった。それでも、ARM2は1987年のIBM PS/2シリーズに搭載されたIntel 80286やIntel 386に比べ、優れた性能を提供していた。

後継機であるARM3は、4KBのキャッシュを搭載し、さらなる性能向上を実現した。

1980年代後半、Apple Computer（現:Apple）はエイコーンと共同で新しいARMコアの開発に取り組んだ。この作業は非常に重要視されていたため、エイコーンは1990年に開発チームをスピンオフしてAdvanced RISC Machinesという新会社を設立した。このため、ARMは本来のAcorn RISC MachineではなくAdvanced RISC Machineの略であるという説明をよく見かけることになる。Advanced RISC Machinesは、1998年にロンドン証券取引所とNASDAQに上場した際、ARM Limitedとなった。

この経緯により、ARM6が開発された。1991年に最初のモデルがリリースされ、AppleはARM6ベースのARM610をApple Newtonに採用した。

これらの変化を経てもコアは大体同じサイズに収まっている。ARM2は30000個のトランジスタを使用していたが、ARM6は35000個にしか増えていない。そこにあるアイデアは、エンドユーザーがARMコアと多くのオプションのパーツを組み合わせて完全なCPUとし、それによって古い設備でも製造でき、かつ安価に高性能を得られる、というものである。

このARM6の改良版であるARM7も、ARM6を採用した製品群に引き続き採用されたほか、普及期に入りつつあった携帯電話にも広く採用されたことから、今日のARMの礎ともなった。

さらに、新世代のARMv4アーキテクチャに基いてARM7を再設計したものがARM7TDMIである。ARM7TDMIはThumb命令（後述）を実装し、低消費電力と高いコード効率を両立する利点を備えていたことから、ライセンスを受けた多くの企業によって製品化され、特に携帯電話やゲームボーイアドバンスといった民生機器に採用されたことから、莫大な数の製品に搭載された。なお、TDMIとはThumb命令、デバッグ (Debug) 回路、乗算器 (Multiplier)、ICE機能を搭載していることを意味している。しかし、これより後のコアには全てこれらの機能が標準的に搭載されるようになったため、この名称は省かれている。

DECはARMv4アーキテクチャの設計のライセンスを得てStrongARMを製造した。233MHzでStrongARMはほんの1Wの電力しか消費しない（最近のバージョンはさらに少ない）。この業績は後に訴訟の解決の一環としてインテルに移管され、インテルはこの機会を利用して古くなりつつあったi960をStrongARMで補強することにし、それ以降XScaleという名で知られる高性能の実装を開発した。

以後も、StrongARMの技術のフィードバックを受けたARM9やARM10を経て、NECとの提携などによって携帯電話向けプロセッサとしての地位を確固たるものにしたARM11をリリースする。

2005年には製品ラインナップを一新し、高機能携帯電話などのアプリケーションプロセッサ向けであるCortex-A、リアルタイム制御向けであるCortex-R、組み込みシステム向けであるCortex-Mと、ターゲットごとにシリーズを分類した。なお、Cortexの末尾に付く文字は、社名であるARMの一文字ずつをそれぞれ割り当てたものである[13]。また、2012年11月にはARM初となる64ビットアーキテクチャによるプロセッサコアであるCortex-A50シリーズを発表した[14]。

ARMからIPコアのライセンス供与を受けている主な企業には、モトローラ、IBM、テキサス・インスツルメンツ、任天堂、フィリップス、Atmel、シャープ、サムスン電子、STマイクロエレクトロニクス、アナログ・デバイセズ、MediaTek、パナソニック、クアルコム、マーベル・テクノロジー・グループなどがある。

ARMチップは世界で最もよく使われているCPUデザインの一つとなっており、ハードディスク、携帯電話、ルータ、電卓から玩具に至るまであらゆる製品の中に見ることができる。32ビット組み込みCPUで圧倒的なシェアを占め、2004年の世界シェアは61%であった[15]。

主な採用製品
ARM6
ARM60 3DOインタラクティブマルチプレーヤー
ARM60 CPU (VY86C06020FC-2)

ARM60 CPU (VY86C06020FC-2)

ARM60 CPU (P60ARM)

ARM60 CPU (P60ARM)
ARM610 Apple ニュートン・メッセージパッド、メッセージパッド100、メッセージパッド110、メッセージパッド120
ARM7/7E
携帯情報端末
eMate 300
携帯電話
一般的なGSM携帯電話
cdmaOne携帯電話
初期の3G携帯電話（例：au CDMA 1X A1400番台の一部を除くA1000番台・A3000番台・A5500番台を除くA5000番台。一部例外除く）
携帯ゲーム機
ゲームボーイアドバンス
ニンテンドー
DS/DS Lite（サブCPU、GBAソフトの動作にも使われる）
DSi（サブCPU）
携帯音楽プレーヤー
iPodシリーズ（デュアルコア実装）
電卓
HP 20b / HP 30b
その他
レゴマインドストーム NXT（知能ブロックの一部）
ルンバ（一部の機種）
ARM9/9E
携帯ゲーム機
ニンテンドーDS/DS Lite/DSi（メインCPU、ARM7とのダブル実装）
Tapwave Zodiac
携帯電話
Sun SPOT
Qualcomm
MSM6550（CDMA2000 1xEV-DO Rel.0対応携帯電話用チップセット）
MSM6800（CDMA2000 1xEV-DO Rev.A対応携帯電話用チップセット）
3Gおよび3.5G携帯電話（例：NTTドコモ FOMA 900i・901iシリーズ、au(KDDI、沖縄セルラー電話)のCDMA 1XシリーズおよびCDMA 1X WINシリーズ、ソフトバンクモバイルのSoftBank 3Gシリーズ等。一部例外除く）
H11T（イー・モバイルの音声通話用3.5G端末）
WS009KE “9 (nine)”（WILLCOM（ウィルコム）のPHS端末）
Nokia N-Gage
携帯情報端末
Handheld Engine CXD2230GA （SONY CLIEに搭載）[16]
その他
Sharp Brain
レゴマインドストーム EV3
ARM11/11E
2007年頃から採用されるようになる。発表は2002年4月29日[17]。
7月17日、東芝がARM1176JZF-S搭載の携帯電話用プロセッサ、TC35711XBGを発表。2008年第2四半期より量産開始予定。
NVIDIA Tegra
Zune HD
携帯音楽プレーヤー
iPod touch
Zune
携帯電話
T-Mobile G1
Qualcomm
MSM7500（EV-DO Rev.A対応携帯電話用チップセット。ARM9Eとのダブル実装）
KDDI／沖縄セルラー電話（各auブランド）の
「KCP+」対応CDMA 1X WINシリーズの携帯電話（例・W56T、W54SA、W61S、W62T等。ARM9Eとのダブル実装）および
CDMA 1X WINシリーズのスマートフォン（例・E30HT等）
MSM7600（EV-DO Rev.A対応携帯電話用チップセット。ARM9Eとのダブル実装）
KYOCERA Zio M6000
HTC Hero
NTTドコモのFOMA902iシリーズ以降の携帯電話。905i以降のSymbian採用機はSH-4Aとダブル実装。
WS018KE (WILLCOM 9)（WILLCOM（ウィルコム）のPHS端末）
Samsung S3C6400（ARM 1176JZ(F)-S v1.0）
iPhone 3G（412 MHzで駆動）
タブレット・PDA
ノキア Internet Tablet N800
mylo COM-2
ゲーム機
Zeebo (新興国向けDL専用3Dゲーム機)
シングルボードコンピュータ
Raspberry Pi model 1A
Cortex-M3
2004年に発表されたマイクロコントローラ。
同じARMv7-M/v7E-MシリーズのCortex-M3,M4,M7共にハーバード・アーキテクチャであることが最大の特徴である。
自動車・工場・家電などの機器制御などに使われている。自動車では、モーター制御、パワーステアリング、横滑り防止装置などいろいろな場所で使われている。
ワンボードマイコン
mbed – NXPのLPC1768の評価ボード。ホビー用途としても広く流通している。
Cortex-A8
2009年頃から採用されるようになる。2010年発売のAndroidスマートフォンは大多数が採用。
NetWalker
Samsung S5PC100
iPhone 3GS（600 MHzで駆動）
iPod touch (第3世代)
Apple A4（Cortex-A8をもとにAppleとサムスンが携帯機器向けに開発）
iPhone 4（800MHz）
iPad（1GHz）
iPod touch（第4世代）
Apple TV（2010年モデル）
シングルボードコンピュータ
BeagleBoard、BeagleBoard-xM、BeagleBone、BeagleBone Black
テキサス・インスツルメンツが技術支援をしてオープンソースハードウェアによって開発されたボード。
Cubieboard
Cortex-A9
タブレットは2010年頃から、スマートフォンは2011年から採用された。初期は2コアだったが、4コアのものがタブレットは2011年から、スマートフォンは2012年から登場した。
NVIDIA Tegra 2
Surface RT
携帯ゲーム機
PlayStation Vita
Apple A5
Apple TV (第3世代)
iPod touch (第5世代)
iPad 2, iPad mini
iPhone 4S
Apple A5X
iPad (第3世代)
シングルボードコンピュータ
PandaBoard
BeagleBoard同様、テキサス・インスツルメンツの技術支援によって開発されたボード。
Wandboard
Cortex-A15
タブレットは2012年から、スマートフォンは2013年から採用された。
サムスン電子は1.7GHzのデュアルコア Exynos 5250 を2012年10月[18]から搭載商品を販売開始。メモリ帯域12.8GB/s[19]。
テキサス・インスルメンツは2GHzのデュアルコアで2012年第3四半期から商品を出荷予定[20]。
NVIDIA は Tegra 4 を2013年第1四半期から出荷予定。
シングルボードコンピュータ
ODROID-XU
Cortex-A57
2012年10月に64ビット ARMのCortex-A57, A53（コードネーム「Atlas」と「Apollo」）が発表され[21]、2014年に搭載商品（Samsung Galaxy Note 4 など）が販売開始された。
AMD は2015年下半期にサーバー向け Opteron A1100 (Seattle) をリリース予定[22][23]。
A57やA53では、8コアや全てのコア同時稼働できる4+4コア（A57が4コア、A53が4コア）などが登場した。
Cortex-A72
2015年2月3日に発表され[24]、2015年に搭載商品が販売される予定[25]。Cortex-A57の後継製品。
Raspberry Pi 4　Model B に採用された。
Cortex-A73
2016年 5月30日に発表された。
Cortex-A75
2017年 5月29日に発表された。
Cortex-A76
2018年 5月31日に発表された。
Cortex-A77
2019年 5月27日に発表された。
Cortex-A78
2020年 5月26日に発表された。
Cortex-X1
2020年 5月26日にCortex-A78と共に発表された。
Cortex-X Custom Programに基づき、Cortex-A78をベースに拡張されている。

コアの性能と採用実績
ARM社製
ファミリーアーキテクチャコア特徴キャッシュ (I/D)/MMU 性能 MIPS @ MHz 採用製品
ARM1 ARMv1 ARM1 なし ARM Evaluation System second processor for BBC Micro
ARM2 ARMv2 ARM2 MUL（乗算）命令を追加
4 MIPS @ 8 MHz
0.33 DMIPS/MHz
Acorn Archimedes, Chessmachine
ARMv2a ARM250 統合メモリコントローラ (MMU), Graphics and IO processor. SWAP命令を追加なし, MEMC1a 7 MIPS @ 12 MHz Acorn Archimedes
ARM3 ARMv2a ARM2a ARMとしてはじめてのキャッシュの採用 4 KB 統合
12 MIPS @ 25 MHz
0.50 DMIPS/MHz
ARM6 ARMv3 ARM60 32ビットアドレス空間をサポート（それまでは26ビット）なし 10 MIPS @ 12 MHz 3DO, Zarlink GPS Receiver
ARM600 キャッシュ、コプロセッサバス（FPA10浮動小数点演算ユニット用） 4 KB 統合 28 MIPS @ 33 MHz
ARM610 キャッシュ、コプロセッサバスは無し
17 MIPS @ 20 MHz
0.65 DMIPS/MHz
Acorn Risc PC 600, Apple Newton 100シリーズ
ARM7 ARMv3 ARM700 8 KB 統合 40 MHz Acorn Risc PC 試作CPUカード
ARM710 Acorn Risc PC 700
ARM710a
40 MHz
0.68 DMIPS/MHz
Acorn Risc PC 700, Apple Newton eMate 300
ARM7100 Integrated SoC. 18 MHz Psion Series 5
ARM7500 4 KB 統合 40 MHz Acorn A7000
ARM7500FE Integrated SoC. “FE”、FPA・EDOメモリコントローラを追加
56 MHz
0.73 DMIPS/MHz
Acorn A7000+
ARM7TDMI v4T ARM7TDMI(-S) 3ステージパイプラインなし 15 MIPS @ 16.8 MHz ゲームボーイアドバンス, ニンテンドーDS, iPod
ARM710T MMU 36 MIPS @ 40 MHz Psion 5 series, Apple Newton
ARM720T 8 KB 統合キャッシュ, MMU 60 MIPS @ 59.8 MHz
ARM740T MPU
v5TEJ ARM7EJ-S Jazelle DBX なし
ARM9TDMI v4T ARM9TDMI 5ステージパイプライン
ARM920T 16 KB/16 KB, MMU 200 MIPS @ 180 MHz Armadillo, GP32,GP2X（マスタ）, en:Tapwave Zodiac (Motorola i. MX1)
ARM922T 8 KB/8 KB, MMU 200/250 MHz Cavium CNS2132 (Econa product lines), Cavium STR8132 (Econa evaluation board), Ritmo Torrent Box/Mini Lan Server/BT-Downloader (ZAP-LN-86BT)
ARM940T 4 KB/4 KB, MPU GP2X（スレーブ）
ARM9E v5TE ARM946E-S variable, tightly coupled memories (TCM), MPU
231 MIPS @ 210 MHz
74.47 MIPS @ 67.024 MHz
ニンテンドーDS, ノキア N-Gage, Conexant 802.11 chips
ARM966E-S キャッシュレス, TCMs
ST Micro STR91xF, Ethernet内蔵

ARM968E-S
v5TEJ ARM926EJ-S Jazelle DBX variable, TCMs, MMU 220 MIPS @ 200 MHz Mobile phones: ソニー・エリクソン・モバイルコミュニケーションズ（K, W シリーズ）, シーメンス and Benq（x65 シリーズ以降）, テキサスインスツルメンツ OMAP1710
v5TE ARM996HS Clockless processor キャッシュレス, TCMs, MPU
ARM10E v5TE ARM1020E (VFP) 32 KB/32 KB, MMU
ARM1022E 16 KB/16 KB, MMU
v5TEJ ARM1026EJ-S Jazelle DBX variable, MMU or MPU
ARM11 v6 ARM1136J(F)-S SIMD, Jazelle DBX, (VFP) variable, MMU 1.25 DMIPS/MHz TI OMAP 2, NXP i.MX3
v6T2 ARM1156T2(F)-S SIMD, Thumb-2, (VFP) 1.54 DMIPS/MHz
v6KZ ARM1176JZ(F)-S SIMD, Jazelle DBX, (VFP) variable, MMU+TrustZone 1.25 DMIPS/MHz iPhone, iPhone 3G, Broadcom BCM2835
v6K ARM11 MPCore 1 – 4 core SMP, SIMD, Jazelle DBX, (VFP) variable, MMU 1.25 DMIPS/MHz（最大608 MHz） NVIDIA Tegra
SecurCore v6-M SC000 0.9 DMIPS/MHz
v4T SC100
v7-M SC300 1.25 DMIPS/MHz
Cortex-M v6-M Cortex-M0 マイクロコントローラ向け。M1はFPGA上で動作。命令はM3のサブセット。Thumb-2 (BL, MRS, MSR, ISB, DSB, and DMB)対応。 0.9 DMIPS/MHz NXP LPC11xx, Triad Semiconductor, Melfas, 忠北テクノパーク, Nuvoton, オーストリアマイクロシステムズ, ローム, SwissMicros GmbH (DM15, DM41等)
Cortex-M0+ 0.93 DMIPS/MHz NXP LPC81x, LPC82x, NXP S32K11x, Renesas RAファミリ, Renesas Synergy S1シリーズ
Cortex-M1 なし, tightly coupled memory optional.
0.8 DMIPS/MHz[26]
最大 136 DMIPS @ 170 MHz[27]（クロックはFPGA依存）
Altera Cyclone III[28], Actel FPGA[29]
v7-M Cortex-M3 マイクロコントローラ向け（ハーバード・アーキテクチャ）キャッシュなし, (MPU) 1.25 DMIPS/MHz Texas Instruments Stellaris MCU, STMicroelectronics STM32, STMicroelectronics Accordo2, NXP LPC1000, NXP mbed, 東芝 TX03, Luminary Micro, Ember EM3xx, Atmel AT91SAM3, Europe Technologies EasyBCU, Energy Micro EFM32, Actel SmartFusion, Renesas R-IN32
v7E-M Cortex-M4 マイクロコントローラ向け（ハーバード・アーキテクチャ）。M3にDSP追加。モーター制御、FA/電力制御、オーディオ/ビデオ処理など。 NXP Kinetis, NXP LPC43xx, NXP i.MX 6, 7, 8, NXP S32K14x, S32M, STMicroelectronics, Renesas RAファミリ, Renesas Synergy MCU (S3/S5/S7), Infineon TRAVEO
v7-M Cortex-M7 マイクロコントローラ向け（ハーバード・アーキテクチャ）。M4までの3段パイプラインから、スーパースカラ（デュアル）6段パイプラインとなり、命令/データ1次キャッシュ、倍精度浮動小数点演算を追加するなど大幅に強化された。クロック周波数は最大800 MHz程度までをターゲットとしており、2017年現在600 MHzで動作する製品がある（NXP i.MX RT1050シリーズ）。
反面、M3,M4にあったBitBand機能が削除されているなどの変更点もある。

L1 命令/データ各0 – 64 KB, (MPU) 2.14 DMIPS/MHz[30][31] STMicroelectronics STM32 F7, Atmel SAM x7x, NXP i.MX RT1050, NXP i.MX 8M Nano, Plus, i.MX 95, NXP S32G, S32K, S32M274, 276, Infineon TRAVEO
v8-M Cortex-M23 マイクロコントローラ向け（ノイマン・アーキテクチャ） 0.98 DMIPS/MHz[32] Renesas Synergy S1JA, Renesas RA2A1, Renesas RA2L1, Microchip SAML10
Cortex-M33 マイクロコントローラ向け（ハーバード・アーキテクチャ） 1.50 DMIPS/MHz[33] Renesas RA6M4, Renesas RA4M3, STM32L5, NXP5500, NXP i.MX 8ULP, i.MX 9
Cortex-R v7-R Cortex-R4 リアルタイム/セーフティクリティカルな組み込みシステム向け可変キャッシュ, MMUはオプション 1.66 DMIPS/MHz Texas Instruments TMS570, Broadcom, Renesas RZ/T, STMicroelectronics Accordo2
Cortex-R5 AMD/Xilinx Zynq UltraScale+ MPSoC
Cortex-R7 2.53 DMIPS/MHz
v8-R Cortex-R52 Renesas R-Car V4H, Renesas RZ/T2, NXP S32N, S32Z, S32E
Cortex-A（英語版） v7-A Cortex-A5 低コスト、低消費電力 L1: 4 KB – 64 KB可変, L2: オプション, メモリ管理ユニット, TrustZone 1.57 DMIPS/MHz (400 MHz – 800 MHz) Atmel SAMA5, PS-T328, Snapdragon S4 Play, Snapdragon 200
Cortex-A7 1 – 4マルチプロセッシング浮動小数点演算器 L2キャッシュメモリ4 MB（最高）メモリ管理ユニット, TrustZone, ラージ物理アドレス拡張 1.9 DMIPS/MHz ( – 1.5Ghz) Snapdragon S4 Play, Snapdragon 200, 208, 210, 212, 400, Allwinner A20, Allwinner A31, MediaTek MT6589, Broadcom BCM2836, Renesas R-Car H2, NXP i.MX 6, 7
Cortex-A8 アプリケーション向け, NEON, Jazelle RCT, Thumb-2 可変 (L1+L2), メモリ管理ユニット, TrustZone 2.0 DMIPS/MHz (600 MHz – 1 GHz) TI OMAP 3, Freescale i.MX 5, Apple A4, Samsung Exynos 3, Allwinner A1x, Rockchip RK29xx
Cortex-A9 アプリケーション向け, 1 – 4コア対称型マルチプロセッシング, (VFP), (NEON), Jazelle RCT and DBX, Thumb-2, アウト・オブ・オーダー実行, 投機的実行, スーパースケーラメモリ管理ユニット, TrustZone 2.5 DMIPS/MHz (800 MHz – 2 GHz) TI OMAP 4, NXP i.MX 6, ST-Ericsson NovaThor U8500, NVIDIA Tegra 2, NVIDIA Tegra 3, NVIDIA Tegra 4i, STMicroelectronics SPEAr1300, ザイリンクス Zynq-7000, Apple A5, Rockchip RK3xxx, Samsung Exynos 4, HiSilicon K3V2, Kirin 910, MediaTek, Renesas RZ/A, Intel Cyclone V SoC FPGA
Cortex-A15 1 – 4コア対称型マルチプロセッシングメモリ管理ユニット, TrustZone, ラージ物理アドレス拡張 3.5 DMIPS/MHz (1 GHz – 2.5 GHz) TI OMAP 5, Samsung Exynos 5, NVIDIA Tegra 4, NVIDIA Tegra K1, HiSilicon Kirin 920, Renesas APE6, Renesas R-Car H2, Renesas MP6530, Alpine AL-212
Cortex-A17 Rockchip RK3288
v8-A Cortex-A32 超小型、低消費電力、電力効率重視。IoT機器向け。32ビット命令セット。
Cortex-A35 低コスト、低消費電力、電力効率重視。64ビット命令セット。メモリ管理ユニット, TrustZone, 64bit仮想アドレス, synchronization primitives。[34] MediaTek Helio X30, NXP i.MX 8
Cortex-A53 AArch64。暗号化命令 2.3 DMIPS/MHz Snapdragon 410, 412, 415, 425, 610, 615, 617, 625, 808, 810, HiSilicon Kirin 620, 930, 935, Rockchip RK3368, MediaTek MT6732, 6735, 6737, 6737T, 6738, 6750, 6752, 6753, Helio P10, P20, P25, X10, X30, Renesas R-Car H3, AMD/Xilinx Zynq UltraScale+ MPSoC, NXP i.MX 8, NXP S32G, S32R, TI AM67, 67A, 65x, 64x, 62P, 62x, 62Ax
Cortex-A57 4.1 DMIPS/MHz Snapdragon 808, 810, Nvidia Tegra X1, Samsung Exynos 7, Alpine AL-324, Renesas R-Car H3
Cortex-A72 Snapdragon 618, 620, 650, 652, HiSilicon Kirin 950, 955, AWS Graviton, Marvell ARMADA 7K, 8K, NXP i.MX 8, TI AM68, 69, 68A, 69A, TI DRA82x, TI TDA4x
Cortex-A73 HiSilicon Kirin 960, MediaTek Helio X30
v8.2-A Cortex-A55 Renesas R-Car S4, NXP i.MX 9
Cortex-A75 L1D: 64 KB, メモリ管理ユニット, TrustZone, 64bit仮想アドレス
Cortex-A76 4命令decode Renesas R-Car V4H
Cortex-A77
Cortex-A78
Cortex-A78C[35]
v9.0-A Cortex-A510 Dimensity 9000, Snapdragon 7 Gen 1, Snapdragon 8 Gen1, Snapdragon 8 Gen2, Exynos 2200
Cortex-A710 Dimensity 9000, Snapdragon 7 Gen 1, Snapdragon 8 Gen1, Snapdragon 8 Gen2, Exynos 2200
Cortex-A715
v9.2-A Cortex-A520 コードネーム: Hayes
Cortex-A720 コードネーム: Hunter
Cortex-X v8.2-A Cortex-X1（英語版）
v9.0-A Cortex-X2 Dimensity 9000, Qualcomm Snapdragon 8 Gen 1, Exynos 2200
Cortex-X3（英語版） Dimensity 9200, Snapdragon 8 Gen 2
v9.2-A Cortex-X4（英語版）
Neoverse v8.2-A Neoverse E1
Neoverse N1 Ampere Altra, Altra Max, AWS Graviton2
v8.4-A Neoverse V1 AWS Graviton3
v9.0-A Neoverse E2
Neoverse N2
Neoverse V2 NVIDIA Grace
サードパーティー
ファミリーアーキテクチャ名称特徴キャッシュ (I/D)/MMU 性能 MIPS @ MHz 採用製品
StrongARM v4 SA-1 16 KB/8 – 16 KB, MMU 1.0 DMIPS/MHz (203 – 206 MHz)
XScale v5TE 80200/IOP310/IOP315 I/O Processor
80219
IOP321 en:Iyonix
IOP33x
PXA210/PXA250 Applications processor ザウルス SL-5600, SL-A300
PXA255 32 KB/32 KB, MMU 400 BogoMips @ 400 MHz en:Gumstix
PXA26x
PXA27x 800 MIPS @ 624 MHz HTC Universal, ザウルス SL-C1000,3000,3100,3200,Willcom W-ZERO3シリーズ WS003SH,WS004SH,WS007SH,WS011SH,WS020SH
PXA800(E)F
Monahans 1000 MIPS @ 1.25 GHz
PXA900 Blackberry 8700, Blackberry Pearl (8100)
IXC1100 Control Plane Processor
IXP2400/IXP2800
IXP2850
IXP2325/IXP2350
IXP42x en:NSLU2
IXP460/IXP465
Snapdragon v7-A Scorpion アプリケーション向け, 1 – 2コア対称型マルチプロセッシング, VFPv3, NEON, Thumb-2, Jazelle RCT, アウト・オブ・オーダー実行, 投機的実行可変(L1+L2), MMU, TrustZone 2.1 DMIPS/MHz (800 MHz – 1.5 GHz) Qualcomm Snapdragon S1, S2, S3 (第1 – 3世代)
Krait アプリケーション向け, 1 – 4コア対称型マルチプロセッシング, VFPv4 MMU, TrustZone 3.3 DMIPS/MHz ( – 2.5 GHz) Qualcomm Snapdragon S4 (第4世代・S4 Playは除く), 400/600/800 (第5世代)
v8-A Kryo 64 KB/512 KB – 1 MB 6.3 DMIPS/MHz ( – 2.6 GHz) Qualcomm Snapdragon 820
Centriq v8-A Folker Centriq 2400
ARMADA v7-A Sheeva PJ4 アプリケーション向け, 1 – 4コア対称型マルチプロセッシング, VFPv3, Wireless MMX2, Thumb-2 可変(L1+L2), MMU, TrustZone 2.42 DMIPS/MHz ( – 1.5 GHz) Marvell ARMADA 500/600シリーズ
Sheeva PJ4B 組み込み向け, 1 – 4コア対称型マルチプロセッシング, VFPv3, NEON, Wireless MMX2, Thumb-2 可変(L1+L2), MMU, TrustZone 2.61 DMIPS/MHz ( – 1.6 GHz) Marvell ARMADA XP/370/1500
Apple Ax v7-A Swift アプリケーション向け, 2コア対称型マルチプロセッシング, VFPv4 32 KB/32 KB 1.1 GHz, 1.4 GHz Apple A6, Apple A6X
v8-A Cyclone アプリケーション向け, 2コア, AArch64 64 KB/64 KB 1.3 GHz Apple A7
Cyclone gen 2 1.1 GHz, 1.4 GHz, 1.5 GHz Apple A8
Typhoon アプリケーション向け, 3コア, AArch64 1.5 GHz Apple A8X
Twister アプリケーション向け, 2コア, AArch64 2.23 GHz, 2.35 GHz Apple A9, Apple A9X
Hurricane, Zephyr アプリケーション向け, 2+2コア, AArch64 1.64 GHz, 2.33 GHz Apple A10 Fusion
アプリケーション向け, 3+3コア, AArch64 2.38GHz Apple A10X Fusion
Monsoon, Mistral アプリケーション向け, 2+4コア, AArch64 L1: 64 KB/64 KB, L2: 8 MB 2.39 GHz Apple A11 Bionic
Vortex, Tempest L1: 128 KB/128 KB, L2: 8 MB 2.49 GHz Apple A12 Bionic
アプリケーション向け, 4+4コア, AArch64 2.5GHZ Apple A12X Bionic, Apple A12Z Bionic
v8.3-A Lightning, Thunder アプリケーション向け, 2+4コア, AArch64 L1: 48 KB/48 KB, L2: 4 MB 2.65 GHz Apple A13 Bionic
v8.6-A Firestorm, Icestorm L1: 192 KB/64 KB, L2: 12 MB/4 MB 2.99 GHz Apple A14 Bionic
Apple M1 アプリケーション向け, 4+4コア, AArch64 3.2 GHz Apple M1
Apple M1 Pro アプリケーション向け, 6+2コア, 8+2コア, AArch64 Apple M1 Pro
Apple M1 Max アプリケーション向け, 8+2コア, AArch64 Apple M1 Max
Apple M1 Ultra アプリケーション向け, 16+4コア, AArch64 Apple M1 Ultra
Apple A15 Avalanche, Blizzard アプリケーション向け, 2+4コア, AArch64 3.23 GHz Apple A15
Apple M2 アプリケーション向け, 4+4コア, AArch64 L1: 192 KB/128 KB, L2: 16 MB/4 MB 3.5 GHz Apple M2
Apple M2 Pro アプリケーション向け, 6+4コア, 8+4コア, AArch64 L1: 192 KB/128 KB, L2: 32 MB/4 MB Apple M2 Pro
Apple M2 Max アプリケーション向け, 8+4コア, AArch64 Apple M2 Max
Apple A16 Everest, Sawtooth アプリケーション向け, 2+4コア, AArch64 L2: 16 MB/8 MB/24 MB 3.46 GHz Apple A16
Tegra K1 v8-A Denver 128 KB/64 KB Google Nexus 9, Xiaomi Mi Pad
Parker Denver 2.0 DRIVE PX2
Xavier Carmel DRIVE Xavier, Jetson AGX Xavier
Exynos v8-A Exynos M1 64 KB/2 MB
（4コアシェア）

Exynos 8890 (Exynos 8 Octa)
Exynos M2 Exynos 8895
Exynos M3 Exynos 9810
ARMv7-A, v8-A は以下の SoC で実装されている。

Allwinner (全志科技)
Amlogic (晶晨半导体)
Apple A4, A5, A5X, A6, A6X, A7, A8, A8X, A9, A9X, A10, A10X, A11, A12, A12X
Freescale i.MX
Fujitsu ARM based SoC Platform (FASP)
HiSilicon (海思半导体)
Marvell ARMADA
MediaTek
NVIDIA Tegra
Qualcomm Snapdragon
Renesas EV2, APE6
Rockchip (瑞芯微电子)
Samsung Hummingbird, Exynos
ST-Ericsson NovaThor
STMicroelectronics SPEAr
Texas Instruments OMAP
Trident PNX
ZiiLABS ZMS
ARMアーキテクチャを採用しているCPU/メーカ
ARMホールディングスの概要にあるように、ARMホールディングスはARMアーキテクチャの設計のみをしており、製造は行ってはいない。ARMはIPコアとして各社にライセンスされ、それぞれの会社において機能を追加するなどしてCPUとして製造される。製造されたCPUはそのまま、あるいはボード上に実装、もしくは製品に組み込まれた形で販売などされる。

以下に『CPUそのもの』『ボード上に実装したもの』などCPUやボードのシリーズ名やブランド名などが明確な主なメーカ名/CPU名/シリーズ名等を記する。

NXPセミコンダクターズ
LPC
LPCXpresso
mbed
フリースケール・セミコンダクタ
i.MX
Kinetis
DEC-インテル
StrongARM
インテル – マーベル・テクノロジー・グループ
XScale
STマイクロエレクトロニクス
STM32
サイプレス・マイクロシステムズ
PSoC 5
東芝
TX03,TX09シリーズ
Panasonic
MN2WS0220シリーズ(スマートテレビ用UniPhier)
ルネサスエレクトロニクス
RAファミリ
RZファミリ
REファミリ
EMMA Mobile
R-Mobile
R-Car
R-IN
Renesas Synergy
富士通
A64FX
32ビットARM
命令セット
ARM は RISC プロセッサであり、Thumb 命令ではなく ARM 命令の場合、その命令セットは

32ビット固定長命令
ロード/ストアアーキテクチャ
3オペランドのレジスタ間演算
多くの命令が1サイクルで実行可能
といった、多くの32ビットRISCプロセッサに共通する特徴が見られる。

ARMプロセッサは、PC相対アドレッシングやプレ-/ポスト-インクリメント・アドレッシングモードなど、RISCとみなされる他のアーキテクチャと比べ、豊富なアドレッシングモードを持っている。

もう一つ留意すべきことは、ARMの命令セットが時間とともに増加しているということである。例えば、初期のARMプロセッサ（ARM7TDMIより以前のもの）は2バイトの値をロードする命令がなかった。

CPUモード
32ビット ARM アーキテクチャはいくつかのCPUモードを持つ。同時には1つのモードにしかなれない。命令や外部からの割込みなどでモードが切り替わる[36]。

ユーザーモード
唯一の非特権モード。
高速割込みモード
FIQ 割込みが発生したときに切り替わる特権モード。
割込みモード
IRQ 割込みが発生したときに切り替わる特権モード。
スーパーバイザーモード
CPU がリセットされたときか SWI 命令が実行されたときに切り替わる特権モード。
アボートモード
プリフェッチアボートかデータアボート例外が発生したときに切り替わる特権モード。
未定義モード
未定義命令が実行されたときに切り替わる特権モード。
システムモード (ARMv4以降)
これが唯一例外が原因で切り替わるモードではない。CPSRレジスタにこのモードを書くことによりこのモードに切り替えることが出来る。
MONモード (要セキュリティ拡張)
TrustZone 拡張をサポートするために作られたモニターモード。
HYP 別名 PL2 モード (ARMv7以降)
仮想化拡張、ハイパーバイザーモード。[37]
レジスタ
レジスタ R0 から R7 は全ての CPU モードで同一。これらは決してバンクされない。

R13 と R14 はシステムモード以外の全ての特権 CPU モードでバンクされる。独自の R13 と R14 を持つことにより例外からそれぞれのモードに切り替えられる。R13 はスタックポインタ、R14 は関数からの戻りアドレスを持つ。

CPU モードごとのレジスタ
usr sys svc abt und irq fiq
R0
R1
R2
R3
R4
R5
R6
R7
R8 R8_fiq
R9 R9_fiq
R10 R10_fiq
R11 R11_fiq
R12 R12_fiq
R13 R13_svc R13_abt R13_und R13_irq R13_fiq
R14 R14_svc R14_abt R14_und R14_irq R14_fiq
R15
CPSR
SPSR_svc SPSR_abt SPSR_und SPSR_irq SPSR_fiq
別名：

R13 は SP とも呼ばれ、スタックポインタ
R14 は LR とも呼ばれ、リンクレジスタ
R15 は PC とも呼ばれ、プログラムカウンタ
CPSR は下記32ビットを持つ[38]。

M (ビット 0 – 4) はプロセッサモードビット
T (ビット 5) は Thumb ステートビット
F (ビット 6) は FIQ 無効ビット
I (ビット 7) は IRQ 無効ビット
A (ビット 8) は不正データアボート無効ビット
E (ビット 9) はデータエンディアンビット
IT (ビット 10 – 15 と 25 – 26) は if-then ステートビット
GE (ビット 16 – 19) は greater-than-or-equal-to ビット
DNM (ビット 20 – 23) は書き換え禁止ビット
J (ビット 24) は Java ステートビット
Q (ビット 27) は sticky overflow ビット
V (ビット 28) はオーバーフロービット
C (ビット 29) は carry/borrow/extend ビット
Z (ビット 30) は零ビット
N (ビット 31) は negative/less ビット
VFP/NEON用として、これらとは別に32ビット用はs0〜s31のレジスタがある。これらは、64ビットレジスタとしてd0〜d15として使える。s0〜s31とd0〜d15はオーバーラップしている。大半の ARMv7-A SoC はさらに、d16〜d31も使える。

VFP/NEON用のシステムレジスタとして、以下の3つがある。

FPSCR – Floating-point status and control register (浮動小数点状態制御レジスタ)
FPEXC – Floating-point exception register (浮動小数点例外レジスタ)
FPSID – Floating-point system ID register (浮動小数点システムIDレジスタ)
条件実行
ARMの命令セットにおいてユニークなのは、マシン語の最上位4ビットを占める条件コードを使用した条件実行命令であり、これによってほぼ全ての命令を分岐命令無しに条件付きで実行することができる。

これにより、マシン語中の即値フィールドに割けるビット数が減ってしまう等の欠点もあるものの、小さなif文に対応するコードの生成時に分岐命令を避けることが可能になる。例として、ユークリッドの互除法を挙げる。

（この例はC言語による）

int gcd(int i, int j)
{
while (i != j) {
if (i > j)
i -= j;
else
j -= i;
}
return i;
}
ARMのアセンブリ言語では、whileループの部分は以下のようになる。

loop
CMP Ri, Rj ; i と j を比較
SUBGT Ri, Ri, Rj ; もし “GT” ならば i = i – j;
SUBLT Rj, Rj, Ri ; もし “LT” ならば j = j – i;
BNE loop ; もし “NE” ならば loop に戻る
通常分岐命令を使用しなければならないthenやelse節のところで分岐が省かれていることが分かる。

命令セットのもう一つのユニークな機能が、シフト演算を「データ処理」（算術演算、論理演算、レジスタ間の代入）命令の中に織り込むことができることである。例えば、C言語の

a += (j << 2);
のような文を1つのARM命令
```
    ADD     Ra, Ra, Rj, LSL #2
```
として表すことができる。

これにより、多くのARMプログラムは通常RISCプロセッサに期待されるようなプログラムよりも密度の高いものになる。このため、命令フェッチに伴うメモリへのアクセス頻度が少なくなり、分岐に伴うストールも回避しやすく、パイプライン処理を効率的に使うことができる。このことが、ARMがARMより複雑なCPUデザインと競合することを可能にした特徴的な一因のひとつである。

Thumb
ARMプロセッサはThumbと呼ばれるコード効率の向上を意図した16ビット長の命令モードを持っている(SuperHの命令16ビット/データ32ビットに倣い追加された)。条件実行のための4ビットプレディケートが削除されている。メモリポートやバスが32ビットよりも狭い状況において32ビットコードよりも性能が向上する。多くの場合、組み込みアプリケーションでは32ビットのデータパスを持っているのは一部のアドレス範囲のみであり（例: ゲームボーイアドバンス）、残りは16ビットかそれよりも狭くなっている。このような状況では、Thumbコードをコンパイルし、CPUに最も負荷のかかる部分だけを32ビット長の命令セットを使用して手作業で最適化するのが、通常は理にかなっている。Thumb命令とARM命令は単一の実行ファイル内で混在が可能であるが、Thumb命令を実行できるモードとARM命令を実行できるモードは独立しており、両者を使うにはその都度プロセッサの状態を切り替える必要がある。状態の切り替えは分岐命令 (BX, BLX) で行うことができるため、通常は関数単位でThumb命令とARM命令を使い分け、関数呼び出しの際に切り替えを行うのが一般的である。

Thumbテクノロジを搭載した最初のプロセッサはARM7TDMIである。ARM9とそれ以降のファミリは、XScaleも含めて全てThumbテクノロジを搭載している。

Thumb-2
Thumb-2テクノロジは2003年に発表されたARM1156コアで登場した。Thumb-2はThumbの制限された16ビット長の命令セットを追加の32ビット長命令で拡張し、命令セットの幅を広げるものである。公称されているThumb-2の目的は、Thumbと同様のコード密度と32ビットメモリ上でのARM命令セットと同様の性能を得ることであり、Thumb-2はビットフィールド操作、テーブル分岐や条件付き実行などを含んでいる。従来はThumbモードにおいて使用可能な汎用レジスタは8本のみであり自由度が低かったが、Thumb-2で導入された32ビット長命令では16本全てのレジスタが使用可能である。16ビット長命令と32ビット長命令はモードの切り替えなしで混在可能であるため、ThumbモードにおいてもARMモードに近い自由度が得られるようになった。

Jazelle
ARMは、Javaバイトコードをハードウェアでネイティブに実行できる技術を実装した。これはARMやThumbモードと並ぶもう一つの実行モードであり、ARM/Thumbの切り替えと同様にしてアクセスすることができる。後述のJazelle RCTに対してJazelle DBX (Direct Bytecode eXecution) とも言う。

Jazelleテクノロジを搭載した最初のプロセッサはARM926EJ-Sである。CPU名の’J’がJazelleを表している。

Thumb Execution Environment (ThumbEE)
ThumbEEはJazelle RCT (Runtime Compilation Target)とも呼ばれる第4のモードである。2005年にアナウンスされ、Cortex-A8プロセッサで最初に実装された。Thumb-2命令セットに小規模な変更を加えたもので、JITコンパイラのように実行時にコードを生成する場合に向いている。主な対象はJava、.NET MSIL（C#など）、Python、Perlなどの言語である。

DSP 拡張命令
デジタル信号処理とマルチメディアアプリケーション向けに ARMアーキテクチャを拡張するため、いくつかの命令が追加された[2]。ARMv5TE と ARMv5TEJ というアーキテクチャ名の “E” がこれを表していると思われる。

追加された命令は、デジタルシグナルプロセッサアーキテクチャで一般的なものである。例えば、符号付積和演算、飽和加算と飽和減算、「先行する0のカウント」のバリエーションである。

SIMD
ARMv6で導入された[39]。32ビット幅。

Advanced SIMD (NEON)
Advanced SIMD拡張はNEONとも呼ばれ、メディアおよびデジタル信号の処理に向いた64ビットと128ビットのSIMD命令セットである。8/16/32/64ビットの整数演算と、32ビット (単精度) 浮動小数点演算のためのSIMD命令が定義されており、ARMv7から利用可能。32ビットCPUでは倍精度浮動小数点数は利用不可で、倍精度にはVFPを使用。

ほとんどの ARMv7 SoC で NEON に対応しているが、NVIDIA Tegra 2 シリーズ、SPEAr1310、SPEAr1340 などで対応していない。

レジスタはVFPレジスタとして用意されている32本の64ビットレジスタを用いて、32本の64ビットSIMDレジスタ (D0-D31) 、もしくは16本の128ビットSIMDレジスタ (Q0-Q15) としてアクセスできる。例えば128ビットレジスタQ0はD0とD1の2つの64ビットレジスタの領域にマッピングされている。

Cortex-A15 などより、NEONv2 (version 2) が搭載され、Fused Multiply-Add ができる。これにより、単精度浮動小数点数で 8 FLOPS/cycle となった。

Wireless MMX
Wireless MMX (WMMX) はインテルがXScaleプロセッサ向けに開発したSIMD命令セットである。64ビット幅のレジスタが16本用意されており、8/16/32/64ビットのSIMD整数演算が可能。XScaleとその売却先であるマーベル・テクノロジー・グループ製のARM SoCに採用されている。命令セット自体はx86プロセッサのMMXとは全く異なるものの、GCCやVisual C++等のコンパイラで利用できる組み込み関数はMMXとの互換性がある程度確保されており、これを利用すればMMX向けに記述されたコードを比較的容易に移植することができる。

VFP
VFP (Vector Floating Point) はARMアーキテクチャのコプロセッサ拡張である。半精度（v3以降）・単精度・倍精度の浮動小数点演算機能を提供する。

VFPv1 – 廃止
VFPv2 – ARMv5TE、ARMv5TEJ、ARMv6 で利用可能
VFPv3 – ARMv7 で利用可能。通常はレジスタ数32個であるが、NVIDIA Tegra 2 シリーズなどはレジスタ数が半分のVFPv3-D16を採用。Cortex-A8の実装はパイプライン化されておらず非常に低速 (VFP Lite)。
VFPv4 – Cortex-A5, A7, A15, Apple A6, Snapdragon Krait などで利用可能。IEEE754準拠の（乗算結果の丸めを行わない）Fused multiply add 対応。VFPv4-D16 もあり。
“Vector” の名を冠する通り、いくつかの命令においてはベクタモードと呼ばれる1命令で複数のレジスタに対して演算を行うモードが用意されている。このモードを使えばSIMD演算が可能であるが、プログラミングモデルがやや煩雑[注釈 1]であったことや、当時のARM11プロセッサにおける実装はスカラ命令を要素数分だけシーケンシャルに実行するというSIMD演算のメリットを享受できないものであったため、あまり積極的には使われなかった。VFPv3を実装するARMv7世代以降ではモダンなSIMD命令セットであるAdvanced SIMD拡張命令 (NEON) が導入されたため、現在ではベクタモードの利用は推奨されていない。Cortex-A9やA15ではベクタモードに対応していない[注釈 2]ことから分かるように、現在のARMアーキテクチャにおけるVFPの位置づけはスカラ専用の浮動小数点演算コプロセッサであり、SIMD演算用途についてはNEONに道を譲っている。

単精度の浮動小数点演算はNEONでも実行可能であるが、倍精度の浮動小数点演算やIEEE754準拠の4つの丸めモード、非正規化数のサポート等はNEONには存在しないため、これらを利用したい場合はVFP命令を使う必要がある。

64ビットARM
→詳細は「AArch64」を参照
64ビット命令セットのAArch64やARM64に関してはAArch64を参照。

脚注
[脚注の使い方]
注釈
^ ベクトルレジスタが明示的に用意されておらず、複数のスカラレジスタに対して演算を行う。ベクタ長は固定されておらず、FPSCRという特殊なレジスタで最大8要素までのベクタ長を指定可能。また、レジスタがスカラモードのみで使えるバンクとベクタモードで使えるバンクに分けられており、レジスタの組み合わせに制約がある。
^ ARMプロセッサのベクタモードへの対応はMVFR0レジスタの24-27ビット目を参照することで確認できる。
出典
^ Arm’s Solution to the Future Needs of AI, Security and Specialized Computing is v9
^ “Arm® (日本)｜半導体IP｜アーム公式サイト – Arm®”. arm.com. 2022年11月18日閲覧。
^ “世の中ARMだらけ!? 現代社会を支える「ARM」ってなんだろう？”. ドスパラ. 2022年11月18日閲覧。
^ “ARMとは”. コトバンク. 2022年11月18日閲覧。
^ “Armがマイコン向けハイエンドCPUコア、Cortex-M85発表”. 日経. 2022年11月18日閲覧。
^ http://www.arm.com/miscPDFs/3823.pdf
^ [1]
^ http://www.jp.arm.com/pressroom/08/080125.html
^ https://news.mynavi.jp/techplus/article/20100910-cortex-a15/
^ https://ascii.jp/elem/000/000/645/645995/
^ a b c d e f Douglas Fairbairn (2012年1月31日). “Oral History of Sophie Wilson”. 3 March 2016時点のオリジナルよりアーカイブ。2 February 2016閲覧。
^ Wilson, Roger (2 November 1988). “Some facts about the Acorn RISC Machine”. Newsgroup: comp.arch. 2024年9月12日閲覧。
^ “スマートフォンを席巻するARMプロセッサーの歴史”. ASCII.jp (2010年12月20日). 2013年7月24日閲覧。
^ “ARMが初の64ビットCPU「Cortex-A50シリーズ」発表、サーバー向けに16コア以上に対応”. ITpro (2012年11月1日). 2014年11月27日閲覧。
^ 2005年、ARM社のセミナー資料による。
^ “Sony Japan | プレスリリース| クリエ用新アプリケーションCPU「Handheld EngineTM」の開発について”. http://www.sony.co.jp. 2019年4月8日閲覧。
^ News：米速報：次世代マイクロアーキテクチャ「ARM11」発表
^ Googleが新型「Chromebook」を発表、Samsung製で249ドル
^ 【PC Watch】 Samsung、初のARM Cortex-A15プロセッサ「Exynos 5250」
^ 日本TI、モバイルの概念を一変させる高性能、高機能のOMAP™5プラットフォームを発表
^ 【後藤弘茂のWeekly海外ニュース】 ARMが次世代CPU「Atlas」と「Apollo」の計画を発表
^ AMD’s K12 ARM CPU Now In 2017
^ 苦難の2013年を越え、輝かしい2014年に賭けるAMD (大きな期待が寄せられているサーバー向け64ビットARMプロセッサ)
^ ARM Sets New Standard for the Premium Mobile Experience – ARM
^ Qualcomm Introduces Next Generation Snapdragon 600 and 400 Tier Processors for High Performance, High-Volume Smartphones with Advanced LTE | Qualcomm
^ “ARM Cortex-M1”, ARM product website. Accessed April 11, 2007.
^ “ARM Extends Cortex Family with First Processor Optimized for FPGA”, ARM press release, March 19 2007. Accessed April 11, 2007.
^ ARM Cortex-M1
^ Actel: 製品とサービス: プロセッサ: ARM: Cortex-M1
^ AnandTech | Cortex-M7 Launches: Embedded, IoT and Wearables
^ Cortex-M7 Overview – ARM
^ Cortex-M23 Overview – ARM
^ Cortex-M33 Overview – ARM
^ “ARMv8-A Synchronization primitives”. p. 6. 2024年1月3日閲覧。
^ Ltd, Arm. “Cortex-A78C”. Arm | The Architecture for the Digital World. 2023年1月14日閲覧。
^ “Processor mode”. ARMホールディングス. March 26, 2013閲覧。
^ “KVM/ARM”. April 3, 2013閲覧。
^ 2.14. The program status registers – Cortex-A8 Technical Reference Manual
^ DSP & SIMD – ARM
関連項目
μClinux
ソフィー・ウィルソン
外部リンク
ARM Ltd.
Linux Zaurusでアセンブリプログラミング
表話編歴
プロセッサアーキテクチャ
表話編歴
ARMベースのチップ
表話編歴
マイクロコントローラ
典拠管理データベース: 国立図書館ウィキデータを編集
フランスBnF dataドイツイスラエルアメリカチェコ
カテゴリ: ARMアーキテクチャマイクロプロセッサ命令セットアーキテクチャ
最終更新 2024年9月23日 (月) 11:59 （日時は個人設定で未設定ならばUTC）。
テキストはクリエイティブ・コモンズ表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。』
クアルコム勝訴、アームとのライセンス契約巡る米訴訟－陪審評決

12月 28, 2024

コンピューター、関連, ハード関連企業、関連, CPU、関連

クアルコム勝訴、アームとのライセンス契約巡る米訴訟－陪審評決
https://www.bloomberg.co.jp/news/articles/2024-12-21/SOTLBDT0AFB400

『Jef Feeley、Ian King

2024年12月21日 12:16 JST

クアルコムはアームの最大顧客の１社で、長年のパートナー企業
世界トップクラスのテクノロジー企業に影響し得る重要訴訟

ライセンス契約を巡りソフトバンクグループ傘下の英アーム・ホールディングスが米半導体メーカーのクアルコムを相手取って起こした訴訟で、米デラウェア州の連邦地裁の陪審は20日、クアルコムのライセンス契約違反はなかったとの評決を下した。

　　クアルコムは2021年に半導体スタートアップ、ヌビアを買収。これによりクアルコムは追加ライセンス使用料をアームに支払うことなく、ヌビアがライセンスを取得していたアームのチップ製品を自社のチップに組み込んだ。

　　アームはヌビアを買収したクアルコムとの間で、契約を再交渉する必要があったとし、買収で得た半導体の設計を破棄するようクアルコムに要求していた。

　　陪審はヌビアがライセンス契約に違反したかどうかについては一致できなかった。

　　クアルコムはアームの最大顧客の１社であり、長年のパートナー企業だが、両社はコンピュータープロセッサー分野での競合により対立が深まった。世界トップクラスのテクノロジー企業の多くが、アームがライセンス供与し、クアルコム製品に組み込まれたチップアーキテクチャーに依存していることから、この訴訟は重要な意味を持っていた。

　　20日の米株式市場でクアルコムは1.7％高、アームはほぼ横ばいで通常取引を終えた。

　　アームは発表資料で再審を求める意向を示し、「全ての申し立てについて陪審がコンセンサスに達しなかったことに失望している」とした。

　　一方、クアルコムは発表資料で、「陪審は当社が技術革新を行う権利の正当性を示し、この訴訟で問題とされた全製品がアームとの契約で保護されていると認めた」と表明した。

関連記事：ソフトバンクＧ傘下のアーム、クアルコムと米国で法廷闘争－業界注視

原題：Qualcomm Defeats Arm’s Claim Over Chip Design License Breach (3)（抜粋）』
「Meteor Lake」はCPUコアが3種類!?　Intelが次世代CPUの詳細を発表（前編）

6月 24, 2024

コンピューター、関連, CPU、関連
「Meteor Lake」はCPUコアが3種類!?　Intelが次世代CPUの詳細を発表（前編）
https://www.itmedia.co.jp/pcuser/articles/2309/20/news063.html

『2023年09月20日 00時35分公開

Intelは9月19日（米国太平洋夏時間）、12月14日（同）に正式発表される予定のモバイル向け次世代CPU「Core Ultraプロセッサ」（開発コード名：Meteor Lake）のアーキテクチャの詳細を発表した。

　本CPUは、同社自身が「ここ40年間で最も大きなアーキテクチャシフトを行った」と公言している。それほどに“自信たっぷり”な製品のようだ。

　その自身の裏付けは、民生向けCPUの製造技術における「初採用」の技術が数多く盛り込まれたことにある。筆者は発表に先駆けて技術説明会に参加したが、その内容は非常に興味深く、とても“濃い”ものだった。

　そこで今回、前後編の2回に分けてMeteor Lakeの特徴を解説することにした。この記事（前編）では、読者の皆さんが一番関心を寄せているであろうMeteor Lakeにまつわる「製造技術」と「CPUコア」を中心に解説していきたい。

目次
```
Meteor Lakeを下支えする製造技術「Foveros」とは？

Meteor Lakeの「タイルアーキテクチャ」はどこがスゴい？

Compute Tile（CPUコア）は前2世代と大きく変わらず

SoC Tileにも「Eコア」　一体なぜ？

「3段変速」に挙動が変わったThread Director
```
イメージ
Meteor Lakeのチップイメージ
5大特徴
Meteor Lakeの4大特徴

Meteor Lakeを下支えする製造技術「Foveros」とは？

　Meteor Lakeは、ユーザーの手元に届く製品となった際には「CPU」とか「プロセッサ」と呼ばれたりすることのなるだろうが、製品カテゴリーとしては、CPUを含む複数の機能を統合した「SoC（System on a Chip）」と呼ばれる半導体製品となる。

　その最大の特徴は、IntelのSoCとしては初めて「タイルアーキテクチャ」を採用したことにある。タイルアーキテクチャとは、SoC（CPU）を単一のダイ（モノシリックダイ）として形成するのではなく、機能ごとに分かれた「機能ブロック」と呼ばれるダイを複数組み合わせて1つの「パッケージ」を作り、それを1つのSoCとして形成する手法だ。

　機能ブロックは、小さなチップを意味する「チップレット」とも呼ばれる。そのこともあり、タイルアーキテクチャは一般的に「チップレット技術（アーキテクチャ）」と説明されることが多い。

チップレット

記者説明会で使われたスライドの1つ。左側にあるこまごまとしたものはMeteor Lakeのパッケージの概略図で、大きく分けると4つのタイル（チップレット）を組み合わせて作られていることが分かる（詳しくは後述）

　チップレット技術によるCPU（SoC）の開発は、競合のAMDが「Zen 2アーキテクチャ」で既に実現している。Zen 2アーキテクチャといえば、2019年夏に登場したデスクトップ向けの「Ryzen 3000シリーズ」が初出なので、Intelはチップレット技術を「4年遅れ」で採用したともいえる。

　しかし、Meteor Lakeにおけるタイルアーキテクチャを細かく見ていくと、IntelはAMDのチップレットよりも“先進度”の高いことに取り組んでいることが分かる。

説明中
Meteor Lakeのタイルアーキテクチャを下支えする「Foveros」という技術を解説するティム・ウィルソン氏（デザインエンジニアリンググループバイスプレジデント兼SoCデザイン担当ゼネラルマネージャ）

　少しややこしいのだが、Meteor Lakeにおけるタイルアーキテクチャは、「Foveros（フォベロス）」と呼ばれるダイ間積層配線技術によって実現している。

　Foveros自体は全く新しい技術ではない。民生品向けとしては、2020年に登場したタブレットPC／2in PC向けCoreプロセッサ（開発コード名：Lakefield）で初採用されている。

　しかし、このLakefieldは、レノボの初代「ThinkPad X1 Fold」など、幾つかのタブレットPCで採用はされたものの、採用事例は非常に少ない。そのせいか、量産開始から1年後の2021年には生産終了が告知されてしまった。Coreプロセッサファミリーの中でも、非常に短命な部類に入る製品だったともいえる。

Foverosの解説動画

ThinkPad X1 Fold
初代ThinkPad X1 Foldは、Lakefieldが採用された数少ない例

　一度は消えたと思われたFoverosだが、Intelは「Intel Data Center GPU」（開発コード名：Ponte Vecchio）において再び採用し、量産実績を積み重ねてきた。
```
→ついに！　ようやく？　「Intel Maxシリーズ」2023年1月から出荷　HBM付き「Xeon Max」と高密度実装GPU「Intel GPU Max」
```
　Ponte Vecchioでの実績を通して、IntelはMeteor LakeでもFoverosを“使える”と判断したのだろう。

Foveros
Foverosは、約1mm×1mmの面積に770本のマイクロバンプによる立体配線を可能にする技術だ。その配線間隔は36μm（0.036mm）で、TSVの直径は1μm（0.001mm）となる

　では、Meteor Lakeのタイルアーキテクチャは、従来のチップレット技術と何が違うのだろうか。』

『Meteor Lakeの「タイルアーキテクチャ」はどこがスゴい？

　Meteor Lakeにおけるタイルアーキテクチャは、Foverosによって実現したもの。では、具体的に従来のチップレット技術と何が違うのだろうか。もう少し詳しく解説してみよう。

　Meteor Lakeでは、主に微細な配線のみ施した「ベースダイ」の上に、機能別に形成されたタイル（チップレット）を載せている。このタイルたちは、ベースダイに対して「マイクロバンプ接合」を行ったり、要所要所ではベースダイを貫通する形で「TSV（Through-Silicon Via）配線」を行ったりしている。

　従来のチップレット技術はパッケージ基板を介してチップレット同士を配線していたが、タイルアーキテクチャではベースダイを介してチップレットを接合させている。当然なのことながら構造は複雑となるが、見方を変えるとチップレットとの接合密度を高められる。ゆえに、ベースダイを介して接合されるチップレット間のデータ伝送速度（帯域）を格段に上げられるのだ。

Foverosの優位性
Foverosを適用したタイルアーキテクチャでは、チップレット間の通信速度を1mmあたり毎秒160GBとすることができる

　Intelでは各タイルを「機能名＋Tile」のような名称で呼んでおり、Meteor Lakeでは以下のタイルをベースダイに集約することで1基のSoCを構成している。
```
Compute Tile（コンピュートタイル）：CPUダイに相当
Graphics Tile（グラフィックスタイル）：GPUダイに相当
I/O Tile（入出力タイル）：各種入出力インタフェースを搭載
SoC Tile（SoCタイル）：その他高機能部位を統合
```
　タイルアーキテクチャで注目すべきなのは、各タイルのプロセスルール（微細度）は異なっても構わないという点だ。事実、Meteor Lakeの各タイルは、プロセスルールが以下の通り結構バラバラだったりする。
```
ベースダイ：22nmプロセス
Compute Tile：Intel 4（7nmプロセス）
Graphics Tile：TSMC N5（5nmプロセス）
I/O Tile：TSMC N6（6nmプロセス）
SoC Tile：同上
```
　チップレット技術では先行しているAMDも、CPUダイとI/Oダイのプロセスルールは異なっていたので、このアプローチ自体は「できて当たり前」なのかもしれない。しかし複数のプロセスルールが混在しているタイルをベースダイに“直接”接合させる技術は間違いなく高度で、驚かされる。

Compute Tile

Compute Tileは、初めての「Intel 4」プロセス採用製品でもある。一見すると第12世代／第13世代Coreプロセッサ（開発コード名：Alder Lake／Raptor Lake）のCPUダイと同じように見える

　Meteor Lakeは4タイル構成だが、これらのタイルを別のものに入れ替えたり、あるいはベースタイルをより大規模なものに変更した上で、より多くのタイルを載っけたりすることで、CPUの「上位モデル」「下位モデル」の設計を比較的容易に行えることが、タイルアーキテクチャやFoverosの優位性――Intelはこう主張する。

拡張や縮小もおてのもの

このスライドの右側のパッケージは、実際にMeteor Lakeで使われるもの。左側は「フォームファクターのコンセプト」ということで、ベースタイルを大きくして、より多くのタイルを載っけた「上位SoC」のイメージとなる

　次は、Meteor Lakeの中でも特に注目したい部位「Compute Tile」と「SoC Tile」について詳しく紹介する。』

『Compute Tile（CPUコア）は前2世代と大きく変わらず

　先述の通り、Compute TileはCPUダイに相当する。Meteor Lakeでは、処理性能重視の「高性能コア（Pコア、開発コード名：Redwood Cove）が最大6基、処理効率（省電力）重視の「高効率コア（Eコア、開発コード名：Crestmont）が最大8基実装される。

　Redwood Coveは、第12／13世代CoreプロセッサにおけるPコア（開発コード名：Golden Cove）のマイナーチェンジ版だ。実効性能の改善は、L2キャッシュの増量による部分が大きい。Foverosによる高密度配線と、メモリ／キャッシュ帯域の拡大も性能アップに貢献しているそうだ。

　なお、Redwood CoveはGolen Coveと同様にマルチスレッド（ハイパースレッディング）に対応している。OSからは1つの物理コアが2つの論理コアと見えるため、暇となっている実行ユニットを活用できれば1クロックで2倍の命令をこなせる。

Pコア

Meteor LakeのPコア（Redwood Cove）は、第12／第13世代CoreプロセッサのPコア（Golden Cove）のマイナーチェンジ版となる

　一方で、Crestmontは第12／第13世代CoreプロセッサのEコア（開発コード名：Gracemont）と比べると目立つ改良点が幾つかある。

　まず、クロック当たりの命令実行効率は、先代比で4～6％も向上している。具体的な改善率の言及はなかったが、分岐予測のアルゴリズムを改善したことの効果だそうだ。また、ニューラルネットワークベースのAI（人工知能）プログラムでよく使われる「AVX-VNNI命令セット」の入出力ポートは2倍に増えている。恐らく、AI処理を多用するアプリが増えてきたことを踏まえた改良だと思われる。

　なお、CrestmontはGracemontと同じく、マルチスレッドには非対応だ。

Eコア

Meteor LakeのEコア（Crestmont）は、VNNI／ISA命令の入出力ポートを2倍に増やすなど改良点が多い。なお、SoC Tileに存在する「低電力アイランドEコア」も、基本設計は同様だという（詳細は後述）

　繰り返しとなるが、Meteor Lakeは最大で「Pコア6基12スレッド＋Eコア8基8スレッド」という構成……なのだが、次に説明するSoCタイルにも別途Eコアが2基存在する。また、そのことに伴い、PコアとEコアに処理を割り振る「Intel Thread Director」の挙動に見直しが入っている。

SoC Tileにも「Eコア」　一体なぜ？

　SoC Tileには注目点が多い。筆者としては、このSoC Tileが「Meteor Lakeらしさ」を一番形作っている部位だと思っている。

　ブロック図を見るとあちこちに視線が行ってしまいがちなのだが、まず注目すべきはNPU（AIアクセラレーター）ではなく、「Low Power Island E-Cores」だ。

SoC Tile

SoC Tileは、Meteror Lakeを語る上で一番重要な部位だ。独立したNPU（AIプロセッサ）の搭載にも目が行くのだが、もっと注目すべきなのがLow Power Island E-Coreである

　その名の通り、Low Power Island E-Cores（LP Eコア）はれっきとしたCPUコアだ。アーキテクチャ自体はCompute TileにあるEコアと同じで、Crestmontを採用している。

　「なんでここにもEコアが？」というところだが、LP Eコアは最大2基2スレッド構成で、Compute TileのEコアよりも動作クロックがより低く抑えられている。「Low Power」の名の通り、クロックやコア数が少ない分、消費電力も少なくなっている。

　Intelによると、PCの利用シーンでは普通のEコアですら性能が高すぎることも少なからずあるという。第12／第13世代Coreプロセッサは「Eコア→Pコア」の2段ギアだったのに対して、Meteor Lakeは「LP Eコア→Eコア→Pコア」の3段ギアとすることで、より効率的に稼働できるようにしたと考えれば分かりやすい。

　Intelによると、LP Eコアだけが動員される場面は案外多いという。Compute Tileを休ませることで省電力性能を稼いでいるようだ。

Eコアの使われ方

Meteor Lakeでは、LP Eコアが使われる場面が多い。その分、Compute TileにあるPコアとEコアは「お休み」している感じで、これで全体的な消費電力の削減を図っている
CPUコアはOSからはどう見える？

　ということで、Meteor LakeのCPUコアは結局、最大で「Pコア6基12スレッド＋Eコア8基8スレッド＋LP Eコア2基2スレッド」となる。つまり最大16コア22スレッドのCPUなのだ。
　ここでふと2つの疑問が浮かぶ。1つはこれらのCPUコアがOS（システム）からどう認識されるのか、もう1つはEコアとLP Eコアは同時稼働できるのかというものである。これら2点は、技術説明会でも質問が相次いだ。

　Intelによると、16コア22スレッド構成のMeteor Lakeは、OSからも「16コア22スレッド」のCPUとして認識され、EコアとLP Eコアは同時稼働可能だという。特にLP Eコアは、SoC Tileにあるメディアエンジンとの相性が良いといい、「LP Eコアだけで動画再生をこなせる」と自信ありげに語っていた。LP Eコアも、そこそこの性能を備えていそうだ。

余裕

最大コア構成のMeteor Lakeを搭載したデモ機（MSI製）で動画を再生するデモンストレーション。タスクマネージャーのスレッド負荷率表示はほぼフラットだが、見事に動画を再生できていた。なお、最下段の右2つのグラフがLP Eコアが処理しているスレッドのものとなる

　都合3種類のCPUコアを混載したこともあって、Meteor LakeではITDの挙動に変更が行われている。

「3段変速」に挙動が変わったThread Director

　LP Eコアの解説を終えたので、ここからは後回しにしてきたIntel Thread Director（ITD）の挙動変更について説明しよう。

　第12／第13世代Coreプロセッサでは、PコアとEコアに処理を割り振るための仕組みとしてITDが導入された。ITDはハードウェア（CPU）とソフトウェア（OS）の双方が協調して稼働することが特徴で、IntelはMicrosoftと協業し、Windows 11にITD対応のタスクスケジューラーを搭載している（※1）。

（※1）編集注：第12／第13世代Coreプロセッサでは、Googleとも協業して、ChromeOSにもITDを搭載している

レージャシューリー・チャブクスワー氏
新しいITDを解説するレージャシューリー・チャブクスワー氏（クライアントコンピューティング部門フェロー）

　Meteor Lakeでは、新たにLP Eコアを含む3種類のCPUコアを搭載している。そのため、処理の割り振りを3種類のコアに行う必要が出てくる。そこで、今回もMicrosoftと協業し、Windows 11へとMeteor Lakeの「3段ギア」に対応するタスクスケジューラーを搭載する。

3段ジャンプ

CPUコアが3種類となったため、ITDにも改良が加えられる

　CPUコア（スレッド）の割り当てアルゴリズムは、そのPCの使い方――例えば性能重視なのか、低消費電力重視なのか――で微妙に変わるそうだが、基本的には「高負荷ではないスレッドには、なるべくEコアやLP Eコアを割り当てる」という方針が適用されるという。

　物理コアにしても論理コアにしても、スレッドの切り替え時には、大量のレジスタファイルの出し入れが行われる。ごくわずかではあるが、この工程は「処理の遅延」となる。それでも、スレッドの切り替えが頻繁（大量）に発生すれば、CPU全体で見た時のスレッドの実行効率は落ち混んでしまう。

　もともと低負荷のスレッドであれば、Eコア側でまとめて実行させても、遅延の実害はないに等しい。ゆえに、新しいITDではこのような方針を取ることにしたそうだ。最初は極力LP Eコアにスレッドを振り、それでムリならCompute TileのEコアに移管し、それでもキツいならPコアにシフト……と、まさしく3段ギアによる「変速」を行っている。

　この移管には、Windows 11のタスクスケジューラーから提供されるCPU負荷のリアルタイムレポートを参考にしているという。また、複数のPコアで負荷の低い処理をしている場合に、LP EコアまたはEコアがプロセスを“まとめて引き取る”制御も行うとのことだ。

　これらの制御によって、Meteor Lakeは「最大性能」と「消費電力効率」を両立するのだ。

新旧Thread Directorの振る舞いの違い

第12／第13世代Coreプロセッサでは、まずPコアにプロセスを振り、優先度の低いプロセスをEコアに移管するという処理が基本だった。それに対して、Meteor Lakeでは最初にLP Eコアにプロセスを振り、その負荷に応じて上位のコアに順次移管するという「ギアアップ」を行う処理が基本となった

Windows

Windows 11にはMeteor Lake対応のタスクスケジューラーが搭載される

高効率の例
タスクスケジューリングの例

　後編では、SoC Tileが備える他の機能と、Graphics Tile、I/O Tileの詳細を紹介する。
```
→後編の記事
```
（取材協力：インテル株式会社）

Copyright © ITmedia, Inc. All Rights Reserved.』
AMDとIntelの最先端「3.5次元」パッケージング技術とは

6月 12, 2024

コンピューター、関連, CPU、関連, 半導体、関連, 半導体、製造、関連
AMDとIntelの最先端「3.5次元」パッケージング技術とは
https://pc.watch.impress.co.jp/docs/column/semicon/1599019.html

　※　今日は、こんなところで…。

『福田昭
2024年6月11日 10:02

半導体パッケージング技術は2次元(2D)から3次元(3D)へ

　半導体パッケージの密度向上と性能向上が一段と進んでいる。過去、高性能コンピューティング向けの大規模プロセッサはCPU回路と入出力回路を複数のミニダイ(チップレット)に分割して微細配線回路のインターポーザ(中間基板)に搭載することで、実装密度、動作周波数および信号伝送帯域の向上を実現してきた。

　当初、ミニダイは中間基板の上に横に並べて搭載していた。従来のパッケージ基板と違うのは、インターポーザではミニダイの間隔を大きく詰められることだ。同時にミニダイの入出力パッドの間隔も詰められる。いずれもインターポーザでは従来のパッケージ基板と比べ、微細な配線を形成できることが大きく寄与している。ミニダイの入出力パッド間隔が詰まると、単位面積当たりの伝送チャンネル数を増やせる。高密度化と高性能化の両方を実現できる。これが「2.5次元(2.5D)パッケージング」と呼ばれる先進パッケージング技術である。なお従来のパッケージング技術は区別のために、「2次元(2D)パッケージング」と呼ばれるようになった。

　次に密度と性能をさらに向上させるため、ミニダイを横に並べるのではなく、縦にならべる、つまり積層することが考えられた。パッケージ基板の上に複数のミニダイを積層すれば、実装面積を大きく減らせる。ミニダイ間を接続する距離は、横に並べた場合と比べて大幅に縮まる。これが「3次元(3D)パッケージング」と呼ばれる先進パッケージング技術である。

3Dと2.5Dを組み合わせて3.5Dへ

　パッケージの集積密度と動作性能をさらに高めるのが、「3.5次元(3.5D)パッケージング」と呼ばれる技術だ。3Dパッケージと2.5Dパッケージを組み合わせたパッケージになる。2024年5月28日～31日に米国コロラド州デンバーで開催された半導体パッケージング技術に関する世界最大の国際学会「ECTC 2024(The 2024 IEEE 74th Electronic Components and Technology Conference)」では、AMDとIntelがそれぞれ、3.5Dパッケージングの開発成果を発表した。

22.5Dパッケージ(左)と3Dパッケージ(中央)、3.5Dパッケージの構造例。AMDがECTC 2024で発表した論文から(論文番号19.6)

　AMDは2023年12月に発表した最新のGPU製品「MI300シリーズ」に3.5Dのパッケージング技術を採用した。2.5Dのパッケージング技術はシリコンのインターポーザと入出力ダイ(IOD)、HBMモジュールの接続に導入した。すなわちインターポーザの上にIODとHBMモジュールをマイクロバンプによって接続している。インターポーザの面積は3,000平方mm(正方形換算で54.77mm角)とかなり大きい。露光領域(レチクル)の約3.6倍に相当する。

関連記事
```
AMD、生成AIでNVIDIA H100を上回る性能のGPU「Instinct MI300」
```
　3Dのパッケージング技術は、IODとCPUダイ(CCD)あるいはGPUダイ(XCD)の3次元積層(3D Stack)に導入した。IODに形成したシリコン貫通ビア(TSV)電極とCCDあるいはXCDの表面電極をハイブリッド接合によって積層/接続している。なおMI300シリーズにはAPU製品の「MI300A」とGPU製品の「MI300X」があるが、パッケージング技術はほぼ変わらない。

関連記事
```
【笠原一輝のユビキタス情報局】AI=NVIDIAの牙城を崩すAMDの新GPU「Instinct MI300X」
```
MI300シリーズのパッケージ構造図。IODとCCD、XCDのチップレット、HBMモジュールをシリコンのインターポーザに搭載した。IOD(ボトム側)とCCD(トップ側)あるいはXCD(トップ側)はハイブリッド接合によって積層している。CPUのアーキテクチャは「Zen3」、GPUのアーキテクチャは「CDNA3」である。AMDが公表したCDNA3アーキテクチャに関するホワイトペーパーから

パッケージ断面図。APU製品であるMI300Aの例。底部から頂上部に向かって説明すると、パッケージ基板の外部電極はランドグリッドアレイ(LGA)、インターポーザの材料はシリコンでパッケージ基板とははんだバンプのアレイで接続、インターポーザとHBMモジュール、IODミニダイはマイクロバンプのアレイで接続した。HBMモジュール内部の3次元積層ダイもTSVとマイクロバンプによる接続である。IODミニダイとCCDミニダイあるいはXCDミニダイは、TSVとハイブリッド接合によって積層した。AMDがECTC 2024で発表した論文から(論文番号19.6)

パッケージ断面を電子顕微鏡で観察した画像。上が全体の画像、下左がIODのTSV電極付近を拡大した画像。下右がハイブリッド接合部を拡大した画像。AMDがECTC 2024で発表した論文から(論文番号19.6)

前世代品「MI250」の比較。メモリ(HBM)の動作クロック周波数とデータ転送帯域(ピーク帯域)が大きく向上している。AMDがECTC 2024で発表した論文から(論文番号19.6)
Intelは3.5D向けに量産水準の3μmピッチHBI技術を開発

　Intelも、3Dパッケージと2.5Dパッケージを組み合わせた3.5Dのパッケージング技術を開発している。

その一端を、ECTC 2024で公表した(論文番号2.3)。

公表したパッケージ断面の例は、パッケージ基板にシリコンの小片(「EMIB:embedded multi-die interconnect bridges」とIntelは呼称)を埋め込んでミニダイ間の配線ピッチを狭くするとともにシリコンダイ間の距離を縮める2.5Dパッケージング技術と、ミニダイを縦に積層する3Dパッケージング技術を組み合わせたもの。

ミニダイの積層接続にはマイクロバンプあるいはハイブリッド接合(HB:hybrid bonding)を駆使する。

Intelが開発している3.5Dのパッケージの断面構造例。なお論文では「3D異種集積(3D heterogeneous integration)」となっているが講演では「EMIB 3.5D」との記述が構造図の下に加えてあった。IntelがECTC 2024で発表した論文から(論文番号2.3)

　講演では、3Dパッケージングの要素技術であるHBI(Hybrid Bonding Interconnect)の研究成果を述べた。チップとウェハを接続する「CtoW(C2W)」タイプのHBI技術を改良し、量産可能な水準で接続ピッチが3μmと狭いHBI技術を開発してみせた。

HBI技術によって接続したシリコンダイとシリコンウェハの断面を走査型電子顕微鏡で観察した画像。左は全体像。右は接続部の拡大像。白い部分が金属電極を示す。画像右下は「2μm」の目盛り。IntelがECTC 2024で発表した論文から(論文番号2.3)

　開発にあたっては、テスト用のミニダイとミニウェハを作成し、ミニダイとミニウェハの間でハイブリッド接合を実施した。ミニダイの大きさは6.2×7.7mmである。ミニウェハには横方向に4枚、縦方向に2枚のトップダイを搭載できる。ハイブリッド接合によって接続部はデイジーチェーン状となる。デイジーチェーンを作るのは、数多くの接合をつなげることで、全体の電気的特性を測定しやすくするためだ。

CtoWタイプのHBIを実施したテスト用デバイスの構成。上はデバイスの断面構造図。ミニダイとミニウェハを接続すると、接続点がデイジーチェーンを形成する。下はベースウェハとトップダイの光学顕微鏡観察像。最多で8枚のトップダイをベースウェハにHBIによって接続できる。IntelがECTC 2024で発表した論文から(論文番号2.3)

「CtoW」タイプのHBIプロセスフロー。上側はトップダイのプロセスフロー。CMP(化学的機械的研磨)による平坦化と電極表面の凹み(リセス)形成、プラズマダイシング、プラズマによる表面の活性化、表面の清浄化と進む。

その次に個々のトップダイをベースウェハに搭載する。下側はベースウェハのプロセスフロー。CMPによる平坦化と電極表面の凹み形成、プラズマによる表面の活性化、表面の清浄化と進む。次がトップダイの搭載と接着である。この段階ではダイとウェハの絶縁膜表面同士が接着する。次に熱処理を加えると、凹んでいたCu電極表面が膨張し、互いに接触して接合を形成する。IntelがECTC 2024で発表した論文から(論文番号2.3)

25,600のデイジーチェーンで均一な抵抗値を確認

　トップダイは64のデイジーチェーンを作り込んである。400枚のトップダイで4端子法によってHBI後の電気抵抗を測定した。合計で25,600のデイジーチェーンに対し、抵抗の変化はほとんどなかった。また位置合わせの誤差は400枚のトップダイに対して0.5μm以下にとどまった。

　信頼性試験も実施した。uHAST(unbiased Highly Accelerated Stress Test)、温度サイクル(TC:Thermal Cycle)試験、高温放置(HTS:High Temperature Storage)試験である。uHASTの試験条件は110℃、85%RH、275時間で78個のサンプルがすべて良品のままだった。温度サイクル試験の条件は低温側が-55℃、高温側が125℃、15分ずつで750サイクルである。80個のサンプルはすべて試験を通過した。高温放置試験の条件は165℃、336時間で、80個のサンプルから不良品はまったく出なかった。

　AMDとIntelの発表から伺えるのは、3Dパッケージングではハイブリッド接合による接続を重視していることだ。シリコンダイ同士の接続密度を飛躍的に高める技術としては、HBIが最も有力視されている。一方で技術的な難しさもかなりのものだ。このためECTC 2024では、ハイブリッド接合に関する発表が非常に活発だった。今後の発展を強く期待したい。』