カテゴリー: GPU、関連

NVIDIAなどの最新の推論特化型チップ（ハードウェア）のトレンド、を。

6月 13, 2026

コンピューター、関連, GPU、関連

https://www.google.com/search?q=%E3%80%8CAI%E4%B8%BB%E6%A8%A9%E3%80%81%E4%B8%96%E7%95%8C%E3%81%AFG2%E3%81%A7%E3%81%AF%E3%81%AA%E3%81%8F%E5%A4%9A%E6%A5%B5%E5%8C%96%E3%81%B8%E3%80%80%E3%82%B5%E3%82%AB%E3%83%8AAI%E3%83%BB%E4%BC%8A%E8%97%A4%E7%A4%BE%E9%95%B7%E3%80%8D%E3%81%A8%E3%81%84%E3%81%86%E8%A8%98%E4%BA%8B%E3%82%92%E8%A6%8B%E3%81%9F%E3%80%82%E3%80%8E%E3%81%93%E3%82%8C%E3%81%BE%E3%81%A7%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC%E9%9C%80%E8%A6%81%E3%81%AE%E4%B8%AD%E5%BF%83%E3%81%AF%E3%80%81%E4%B8%BB%E3%81%A8%E3%81%97%E3%81%A6%E3%80%8C%E3%83%A2%E3%83%87%E3%83%AB%E9%96%8B%E7%99%BA%E3%80%8D%E3%81%A8%E3%80%8C%E5%AD%A6%E7%BF%92%E3%80%8D%E3%81%AB%E3%81%82%E3%81%A3%E3%81%9F%E3%80%82%E3%81%97%E3%81%8B%E3%81%97%E7%8F%BE%E5%9C%A8%E3%81%AF%E3%80%81%E3%82%A8%E3%83%BC%E3%82%B8%E3%82%A7%E3%83%B3%E3%83%88%E6%8A%80%E8%A1%93%E3%81%AE%E6%99%AE%E5%8F%8A%E3%81%AB%E3%82%88%E3%81%A3%E3%81%A6%EF%BC%88%E3%83%87%E3%83%BC%E3%82%BF%E5%87%A6%E7%90%86%E3%81%AA%E3%81%A9%EF%BC%89%E6%8E%A8%E8%AB%96%E3%81%AB%E4%BC%B4%E3%81%86%E9%9C%80%E8%A6%81%E3%81%8C%E6%80%A5%E9%80%9F%E3%81%AB%E6%8B%A1%E5%A4%A7%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E3%80%82%E3%80%8F%E3%81%A8%E3%81%84%E3%81%86%E3%80%82%E3%81%A9%E3%81%86%E3%81%84%E3%81%86%E3%81%93%E3%81%A8%E3%81%AA%E3%81%AE%E3%81%8B%E3%80%81%E8%A9%B3%E3%81%97%E3%81%8F%E8%A7%A3%E8%AA%AC%E3%81%97%E3%81%A6%E3%80%82&rlz=1C1ONGR_jaJP1181JP1182&sourceid=chrome&ie=UTF-8&aep=48&cud=0&qsubts=1781308671083&source=chrome.crn.obic&sei=_pwsav6wIJSivr0Pud3WyAg&mstk=AUtExfBkNIzcCOhBFlCiGnbciIYoA089_J2nD4dffPTlDKsjOPcc7FszV6ip274mOQMOzFqP9aMCWmZro5nnlnzrYR2vtVHenw2Cl60k4ng4Dmbq5I85cYCuceXcuGp79PGRCy7oIt350goEk2iOHqGvMR6sNT-coEFqvUs&csuir=1&udm=50

『NVIDIAをはじめとする最新のAIハードウェア市場では、エージェント技術の台頭による「推論需要の爆発」を見据え、「脱・GPU一本足」や「推論性能の極限化」に向けた歴史的な大転換が起きています。

主要な3つのトレンドについて解説します。

トレンド1：NVIDIAの衝撃、「Groq」提携による推論特化型LPUへの参入

これまでNVIDIAの強みは、学習と推論のどちらにも万能な「GPU」でした。

しかし、AIエージェントのように超高速な応答（低遅延）が求められる環境では、GPUの構造が必ずしも最速ではないという課題がありました。

「NVIDIA Groq 3 LPU」の発表: NVIDIAは年次イベント「GTC 2026」にて、AI半導体スタートアップGroqの技術を取り入れた推論特化型チップ「Groq 3 LPU（Language Processing Unit）」を電撃発表しました [1.3.4, 1.3.5]。

狙い（GPU一本足からの脱却）:

LPUは言語処理の推論スピードに特化した構造をしており、処理速度を最大35倍も高速化できます [1.3.8]。

NVIDIAは絶対的王者であるGPUに加え、このLPUを製品群に組み込むことで、急拡大する「推論市場」を完全に支配しようとしています [1.3.7]。

トレンド2：次世代アーキテクチャ「Vera Rubin」による圧倒的性能向上

NVIDIAが次世代の主力として展開しているのが「NVIDIA Rubin」プラットフォームです [1.1.5]。

これまでのBlackwell世代からさらに進化し、特にエージェント型AIが求める「思考力」を支える仕様になっています。

推論性能が5倍に: 前世代のBlackwellと比較して、AIの推論性能が5倍に跳ね上がっています [1.2.1]。

メモリの壁を打破（HBM4の採用）: AIエージェントが多くの記憶や文脈を一度に処理できるよう、次世代の超高速メモリである「HBM4」をいち早く搭載しました [1.2.6]。

これにより、チップ内のデータ転送スピード（メモリ帯域）は従来の3倍近くまで向上しています [1.2.6]。

「FP4」低精度演算の本格化: AIの計算を「あえて粗く（しかし実用上問題ないレベルに）行う」ことで処理効率を劇的に上げる技術です。

Rubin世代では「FP4」という超低精度演算の処理能力が格段に強化され、省電力と超高速化を同時に実現しています [1.2.6]。

トレンド3：巨大IT（ビッグテック）による「学習と推論の分離」

NVIDIAの独占を崩すため、Googleなどのビッグテックも独自の自社製チップ（ASIC）の開発を加速させています。

ここでも「エージェント型AI」への対応が明確なトレンドになっています。

Googleの第8世代TPU: Googleが発表した最新のAIチップ（TPU）では、「学習用（TPU 8t）」と「推論用（TPU 8i）」の2種類にアーキテクチャを根本から分離しました [1.1.6]。

自律的に動作するエージェント型AIの需要増に合わせ、推論専用の独立したチップを用意することで、コストと電力効率を最適化する戦略をとっています [1.1.6]。

💡 ハードウェアトレンドのまとめ

現在のトレンドは、「AIモデルを大きく賢く育てるためのチップ（学習向け）」から、「賢くなったAIエージェントを、いかに1秒でも早く、1円でも安く、大量に社会で動かすか（推論向け）」へ開発の主戦場が完全にシフトしていることです。

NVIDIAがGroqのLPU技術を取り込んだことは、その流れを決定づける象徴的な出来事と言えます [1.3.4、1.3.5]。

この半導体チップのトレンドを踏まえ、さらに知りたい情報はありますか？もしよろしければ、次のステップとして以下のようなテーマをご提案できます。このような超高性能チップがもたらす、データセンターの「深刻な電力不足問題」や解決策 [1.3.6]米国（NVIDIAやGoogle）に対抗する、サカナAIなどの「日本国内でのAIインフラ確保の動き」 [1.3.6]』
SBMが全結合を高速処理するために使っている「GPU（グラフィックスプロセッサ）の活用の仕組み」

5月 15, 2026

コンピューター、関連, 量子コンピュータ、関連, GPU、関連
SBMが全結合を高速処理するために使っている「GPU（グラフィックスプロセッサ）の活用の仕組み」を、お願いします。

『東芝のSBMが、最大1,000万変数もの膨大な「全結合」を高速処理できる理由は、GPU（グラフィックスプロセッサ）の得意分野である「巨大な行列計算」と、SBMの数式（微分方程式）が完璧にマッチしているからです。

GPUのアーキテクチャをどのように活かして超高速化を実現しているのか、その仕組みを解説します。

1. SBMの計算は「巨大な行列とベクトルの掛け算」

全結合の組み合わせ最適化問題を数学的に表すと、すべての変数同士のつながりを示す「巨大な正方行列（結合重み行列）」と、各変数の現在の状態を示す「ベクトル」の掛け算（積）になります。
- 変数が増えると計算量は爆発する：変数の数が $N$ 個あるとき、全結合の組み合わせパターンは $N \times N$（$N$ の2乗）の規模で増えていきます。
- CPUの限界：一般的なCPUは、複雑な命令を1つずつ順番に処理するのが得意なため、この膨大な掛け算を順番に実行すると膨大な時間がかかります。
2. GPUの「超並列演算」をフル活用する

GPUは、数千個の小さな計算コアを搭載し、単純な計算を一斉に同時実行（超並列処理）するのが得意な半導体です。
- 一斉に掛け算を行う：SBMは、ある時点のすべての変数の状態をGPUのメモリ上に配置します。次の瞬間にすべての変数が互いに与え合う影響（$N \times N$ 回の掛け算）を、数千のコアで完全に分担し、一瞬で同時に計算します。
- データの移動を最小化する：GPUの内部メモリ（VRAM）の中に「結合重み行列」を丸ごと載せておき、メモリとプロセッサ間のデータ転送のボトルネックを徹底的に排除しています。
3. SBMの数式がGPUと相性抜群な理由（全並列更新）

実は、従来の「シミュレーテッドアニーリング（SA）」などの手法もGPUで並列化しようと試みられてきましたが、SBMほど劇的な速度は出ませんでした。ここにSBMのブレイクスルーがあります。
- 従来手法（確率的アプローチ）：「変数Aを書き換えたら、次に変数Bを書き換える」というように、順番にしか状態を更新できないアルゴリズム（マルコフ連鎖など）が多く、GPUの並列性能を100%活かせませんでした。
- SBM（連続的な微分方程式）：SBMは、すべての変数の状態が時間の経過とともに滑らかに変化する「微分方程式」を採用しています。これにより、「すべての変数の次の状態」を、前の状態のデータだけを使って完全に独立して同時に計算（全並列更新）できます。お互いの計算の終わりを待つ必要がありません。
4. アルゴリズムの進化による「100倍速」の秘密

2026年に発表された最新のアルゴリズムでは、GPUのメモリ効率と演算効率がさらに最適化されました。
- 無駄なメモリアクセスの削減：行列計算のプロセスをさらに洗練させ、GPUが最も得意とする連続的なメモリ配置（コアへのデータ供給）を維持できるようになりました。
- 演算ステップの圧縮：正解へたどり着くまでの時間軸（微分方程式のステップ数）を大幅に短縮し、GPUの演算回数そのものを減らすことで、従来の100倍という驚異的な速度を叩き出しています。
SBMはまさに「GPUの並列計算パワーを100%引き出すためにデザインされた数式」であるため、専用の量子ハードウェアを作らずとも、市販のAI用GPUサーバーなどをそのまま使って量子コンピュータを超えるパフォーマンスを発揮できています。

さらにこの技術について深く知りたい場合は、以下を提案できます。
- 同じくGPUを活用する富士通の「デジタルアニーラ」のアーキテクチャとの違い
- SBMを動かすのに適したGPUのスペックや動作環境（SQBM+の仕様）について
』
RTX5090の価格（日本円での）の推移は？

5月 14, 2026

コンピューター、関連, GPU、関連, PCパーツ、関連
RTX5090の価格（日本円での）の推移は？

『NVIDIAの最上位コンシューマー向けGPU「GeForce RTX 5090」の日本円価格は、発売当初の約45万円から、現在は平均65万円前後にまで暴騰しています。 [1, 2, 3]

AI需要による世界的な品薄やGDDR7メモリの価格高騰が直撃し、発売以降右肩上がりの推移をたどっています。 [1, 3, 4, 5]

主な価格推移のタイムラインと要因は以下の通りです。

1. 2025年1月：発表と発売（想定外の「抽選スタート」）
- メーカー発表最安値： 39万3,800円〜
- 実際の初動価格：約45万円〜 58万円
- 市場の動向： 2025年1月31日に発売されましたが、あまりの入荷数の少なさから、国内では「定価（39.3万円）」での一般販売はほぼ行われず、各ショップで45万円以上での抽選販売という異例の幕開けとなりました。 [2, 5, 6]
2. 2025年春〜夏：一時的な流通改善と「40万円台前半」への微減
- 市場平均価格：約46万円〜 51万円（最安モデルで41.8万円など）
- 市場の動向：発売直後の極端な品薄が5月頃にかけて一時的に改善し、ZOTAC製などの一部モデルが定価に近づく41万〜42万円台を記録するなど、価格がやや落ち着きを見せました。 [1, 3, 7]
3. 2025年秋〜冬：供給激減と「50万円突破」
- 市場平均価格：約52万円〜 56万円
- 市場の動向：秋以降、世界的なメモリ不足（GDDR7などの高騰）の影響を受け、NVIDIAからの出荷・供給量が大幅に減少しました。店頭在庫が一掃されたことでプレミアム価格（転売・高騰価格）が上乗せされ、年末には完全に50万円台後半が定着しました。 [1, 4, 5, 7, 8]
4. 2026年現在：品薄の深刻化による「60万〜70万円台」への暴騰
- 現在の市場平均価格：約64万〜 68万円
- 現在の各社主要モデルの価格帯：
- ZOTAC製：約61.9万円〜
- GIGABYTE製：約59.9万〜68.4万円
- ASUS製（ROG等）：約66.8万〜75.2万円
- 市場の動向：ゲーム用途（モンスターハンター新作などの特需）に加え、個人・研究者による「AI演算用」としての需要が衰えず、品薄が一段と深刻化しています。
現在、多くの主要モデルが発売当初から約20万円近く値上がりした状態で推移しています。 [1, 3, 5]

グラフィックボードの買い時や、特定のメーカー（ASUS、MSI、ZOTACなど）の在庫・価格状況についてさらに詳しく知りたい情報はありますか？

[1] https://macha795.com
[2] https://gazlog.jp
[3] https://kakaku.com
[4] https://gazlog.jp
[5] https://macha795.com
[6] https://pc.watch.impress.co.jp
[7] https://gazlog.jp
[8] https://www.nichepcgamer.com
』
GPUが並列処理に強いことは、分かる。しかし、本来は「３D画像の表示」に特化したもので、必ずしも「ＡＩの演算処理」に最適化されたものではなかったと思う。今後も、「ＡＩ最適化チップ」としてのエヌビディアの地位は、揺らがないと考えられるのか？予測されるシナリオは？

5月 14, 2026

GPU、関連, ＡＩ、関連, ＩＴ関連, 半導体、関連
GPUが並列処理に強いことは、分かる。しかし、本来は「３D画像の表示」に特化したもので、必ずしも「ＡＩの演算処理」に最適化されたものではなかったと思う。今後も、「ＡＩ最適化チップ」としてのエヌビディアの地位は、揺らがないと考えられるのか？予測されるシナリオは？

『ご指摘の通り、GPU（画像処理装置）は本来、3Dグラフィックスを描画するための「並列計算機」として誕生しました。

しかし、NVIDIAは15年以上前からこの仕組みがAI（行列計算）に流用できることを見抜き、ハードウェアを「AI専用」へとドラスティックに進化させてきました。 [1, 2, 3, 4]

2026年現在、NVIDIAの市場シェアは約80%と圧倒的ですが、今後は「GPUの限界」と「競合の台頭」により、独占から多極化へとシフトすると予測されます。

今後の主導権争いにおける3つのシナリオを解説します。 [5, 6]

NVIDIAの強さ：なぜ「元・画像チップ」が今も最強なのか？

NVIDIAの絶対的な強みは、ハードウェアの性能そのものよりも、「CUDA（クーダ）」と呼ばれるソフトウェア生態系にあります。 [7, 8]
- 世界中のAI研究者や開発者が、NVIDIAのチップを動かすためのシステム（CUDA）を基準にAIプログラムを書いています。
- 他社がどれほど優れた「AI最適化チップ」を作っても、ソフトウェアが対応していなければAIが動かないため、顧客はNVIDIAから離れられないという強力な「堀（Moat）」が築かれています。 [7, 8]
予測される今後の抗争シナリオ

今後、NVIDIAの地位を脅かす要因として、以下の3つのシナリオが並行して進むと考えられます。

シナリオA：巨大テック（GAFAMなど）の「自社製ASIC」による内製化（最大の脅威）
- 内容： Google（TPU）、Amazon（Trainium）、Metaなどの巨大IT企業（ハイパースケーラー）は、NVIDIAの法外なチップ価格と莫大な消費電力を嫌い、自社のAIサービスだけに特化させた専用チップ「ASIC（特定用途向け集積回路）」の開発・導入を急いでいます。
- 予測：画像処理などの無駄な回路を一切排除し、自社のAIアルゴリズムに100%最適化されているため、電力効率とコストパフォーマンスでGPUを上回ります。ゴールドマン・サックスなどの予測では、2027年までにこれら自社製ASICの需要がGPUと肩を並べるとされており、NVIDIAのシェアを大きく削る最大の要因になります。 [6, 9, 10, 11]
シナリオB：競合AMDの猛追と「脱CUDA」の動き
- 内容：ライバルであるAMDは、NVIDIAの最新モデルに対抗する高性能AIチップ（MI355Xなど）を投入し、MetaやOpenAIなどの大口顧客を獲得し始めています。
- 予測：同時に、業界全体で「NVIDIA一強」を崩すため、CUDAを仲介せずにどのチップでもAIを動かせるオープンソースのソフトウェア環境（PyTorchの最適化やAMDのROCmなど）の開発が急速に進んでいます。
ソフトウェアの壁が薄くなるにつれ、価格競争が激化します。 [12, 13, 14, 15]

シナリオC：NVIDIAの「AIシステム企業」への脱皮（防衛策）
- 内容： NVIDIA自身も、単なる「チップ単体の販売」から、数万個のチップ、超高速ネットワーク、冷却システム、AIソフトウェアを丸ごとセットにした「AIスーパーコンピュータ（Blackwellラックなど）」を売るビジネスへシフトしています。
- 予測：チップ単体での性能評価ではなく、「データセンター丸ごと動かしたときの圧倒的な通信スピードと安定性」で勝負するため、他社がチップ単体で追いついてきても、大型データセンター市場におけるNVIDIAの優位性は数年間は維持される見込みです。 [2, 7, 8, 9, 13]
結論

NVIDIAの地位は「すぐには揺らぎません」が、市場シェアは現在の90%超から、2026〜2027年にかけて70%程度まで緩やかに低下すると予測されています。 [5, 16]

今後は、「汎用性が高くどんなAIでも動くNVIDIAのGPU」と、「特定の巨大AIサービス（検索、SNS、クラウド）を安く省エネで動かす自社製専用チップ（ASIC）」による棲み分け（多極化）が進むことになります。 [6, 10]

このシナリオの中で、さらに深掘りしたい部分はありますか？
- GoogleのTPUがなぜNVIDIAのGPUに対抗できているのか、その仕組み
- AIの爆発的普及に伴う「データセンターの電力不足問題」とチップの省エネ化競争
- NVIDIAが次に仕掛ける「次世代 Rubin アーキテクチャ」のタイムライン [11]
[1] https://www.intel.com
[2] https://markets.financialcontent.com
[3] https://www.researchgate.net
[4] https://run.unl.pt
[5] https://siliconanalysts.com
[6] https://siliconanalysts.com
[7] https://www.tradingkey.com
[8] https://www.aichips.com
[9] https://news.ycombinator.com
[10] https://www.heygotrade.com
[11] https://siliconanalysts.com
[12] https://finance.yahoo.com
[13] https://www.youtube.com
[14] https://thecuberesearch.com
[15] https://www.amd.com
[16] https://siliconanalysts.com
』
NVIDIAの巨大GPUを支えるTSMCのインタポーザ技術

8月 1, 2025

コンピューター、関連, GPU、関連

NVIDIAの巨大GPUを支えるTSMCのインタポーザ技術
https://pc.watch.impress.co.jp/docs/column/kaigai/1064109.html

『後藤弘茂 (Hiroshige Goto)2017年6月9日 06:00

シリコンインタポーザも半導体技術の限界に制約されている
　NVIDIAは、次世代GPUアーキテクチャ「Volta(ボルタ)」ベースのハイエンドGPU「Tesla V100(GV100)」で815平方mmのダイサイズ、現行のPascal(パスカル)の「GP100」で610平方mmと巨大ダイのGPUを投入し続けている。

　しかし、無制限に大きなダイのGPUを作れるわけではない。GPUのダイサイズには、制約がある。それは、半導体製造工程におけるフォトマスクのサイズだ。

　半導体製造工程で露光に使われるフォトマスクでは一定の露光サイズが決まっている。現在はワンショットの露光サイズは33×26mmが主流で、面積では約850平方mmとなる。

　GV100の815平方mmというダイサイズは、加工上で必要となる部分を省けば、ほぼギリギリの限界サイズだ。ワンショットによる露光面積は、GPUチップの製造上の明確な限界となっている(2020年以降にハイNAが導入されると、ワンショット露光面積は半分になる)。
　しかし、マスクサイズは、じつはPascal世代のGP100のときから問題となっていた。それは、GPUの土台となっているシリコンインタポーザ(Silicon Interposer)のサイズもマスクの露光サイズによって制約されているからだ。

　NVIDIAは昨年(2016年)のGP100から、ハイエンドGPUのメモリにHBM(High Bandwidth Memory)を採用した。HBMは、シリコン貫通ビア(TSV:Through Silicon Via)技術を使ったスタックドDRAM技術だ。NVIDIAが採用したのは、第2世代のHBM2で、GV100ではメモリ帯域は900GB/sに達する。

　HBMの特徴は、シリコンインタポーザと呼ばれる土台の上にGPUとHBMメモリを配置、チップ間を超高密度の配線で結ぶことで広帯域を実現することにある。NVIDIA GPUでは4個のスタックを載せており、合計4,096-bitのデータバスをシリコンインタポーザで配線している。

インタポーザを使うHBM技術

従来はボード上にあったDRAMをインタポーザ上に載せる

シリコンインタポーザを使いHBM2 DRAMを載せたチップの断面図

　微細な配線を可能にするシリコンインタポーザも、その正体は半導体チップだ。トランジスタは形成しないものの、通常の半導体チップ同様に配線を行ない、TSV技術による縦配線も通す。そのため、シリコンインタポーザにも、GPUチップと同様にマスクサイズの制約がある。ワンショットで露光できる面積は、33×26mmの約850平方mmが上限だ。

　ではどうやって、NVIDIAの巨大GPUを載せる巨大インタポーザを作ることができるのか。

NVIDIAが採用したTSMCのパッケージ技術CoWoS

　NVIDIAのハイエンドGPUの製造は、ファウンダリ最大手の台湾TSMCが行なっている。インタポーザを使うパッケージングもTSMCの「CoWoS(Chip-On-Wafer-On-Substrate)」技術を使っている。

　TSMCは、京都で開催されている半導体学会「2017 Symposia on VLSI Technology and Circuits」(6月5日～6月8日)において、同社の第2世代CoWoS技術の概要を明らかにした(「Wafer Level Integration of an Advanced Logic-Memory System Through 2nd Generation CoWoS technology」W. Chris Chen. VLSI Symposia 2017)。

　第2世代のCoWoS2は、NVIDIA GPUなどの大型で高性能なチップやHBM2などの新メモリに最適化した技術となっている。

　TSMCは現在、パッケージ技術の革新に力を注いでいる。そして、新しいパッケージ技術として「Fan-Out Wafer Level Package(FO-WLP)」技術の「InFO」と、CoWoSを提供している。InFOは、Appleの「iPhone 7」の「A10」プロセッサのパッケージに採用されて一躍有名になった。CoWoSとInFOは大きく異なる技術で、すみ分けている。

TSMCのパッケージ技術CoWoSとInFO

第2世代のCoWoSのビジョン

　TSMCは2012年にCoWoSを導入。CoWoSは最初はFPGAなどに使われていた。VLSIシンポジウムでは、第1世代のCoWoSでは、インタポーザのサイズが850平方mmまでに制限されていたことが明かされた。最初の世代では、GPUのような大型チップにHBMを組み合わせたCoWoSは不可能だったことになる。

上限が850mm2で実用上は800mm2程度のサイズだった第1世代

　そこで、TSMCは第2世代の「CoWoS-2」の開発を進めてきた。TSMCは、まず、インタポーザサイズの拡大に手を着けた。そして、2015年に1,200平方mmまでの拡張サイズのインタポーザの「CoWoS-XL1」を導入した。

2ショットのスティッチングでインタポーザ面積を拡大

　TSMCはVLSIシンポジウムで、CoWoS-XL以降のインタポーザ拡張技術を明らかにした。それによると、マスクを2セット使って「縫いしろ(stitching:スティッチング)」エリアを設けることで、マスク1枚よりも大きなインタポーザダイ(半導体本体)を実現する。

　CoWoS-XLによって、2015年には1,200平方mmまでの面積のインタポーザが適合できたという。

インタポーザを拡大したCoWoS-XL1

マスクを2セット使うことで、1セットのマスクよりも大きな
エリアのインタポーザを実現するCoWoS-XL技術

　2016年のNVIDIAのPascal GP100は、この第2世代のCoWoS技術であるCoWoS-XLを採用している。

　CoWoS-XLは、610平方mmのGP100 GPUダイに、4個のHBM2スタックを、インタポーザ上に載せている。そのため、Pascal GP100のインタポーザ面積は約1,160平方mm(スライドでは1,200平方mmとなっている)となり、当然850平方mmのワンショットサイズには収まらない。そのため、2マスクセットによるスティッチングで、拡大インタポーザとしている。

NVIDIAのGP100モジュール

第2世代CoWoSを使うNVIDIAのGP100

VLSIシンポジウムで示されたHBM2 8Hiスタックの断面図

　GP100のHBM2メモリは、8MbitsのDRAMダイを4層にTSVで積層した「4Hi」構成となっている。GPUが153億トランジスタで、DRAMと合わせて1,500億トランジスタとなる。

CoWoS2の限界に近いインタポーザ面積を使う「Volta」

　TSMCは、VLSIシンポジウムにおいて、CoWoS2では、最大1,700平方mmのインタポーザが可能であることを明らかにした。2ショットなら、計算上これが限界の面積となる。

　そして、この面積は、NVIDIAが今年(2017年)投入する次世代GPU「Volta」のスペックと合致している。

　NVIDIAは、Volta GV100では、GPUダイを815平方mmに拡大し、HBM2を4スタック使った。この構成では、インタポーザサイズが1,600平方mm前後必要になると見られる。つまり、Voltaは、GPUダイがマスクの限界であると同時に、インタポーザもCoWoS2の限界となっている。二重に限界まで使っているのがVoltaだ。

NVIDIA GPUとインタポーザサイズ

NVIDIAが公開したGV100

　また、TSMCはVLSIシンポジウムで、今年中にCoWoS2によって6個のHBM2スタックを搭載した製品が登場すると発表した。GPU以外でもHBM2を使う大型ダイが浸透しつつある。

HBM2が6スタックも可能に

右上がPascal右下が6スタックを使う例。左はインタポーザウェハ上でのCoWoSの製造工程
　ちなみに、2015年にAMDが発売した初のHBM採用GPU「Radeon R9 Fury(Fiji)」は、HBM1メモリを使ってインタポーザに載せているが、こちらはTSMCのパッケージ技術は使っていない。

　Fijiダイ自体はTSMCの28nmプロセス製造だが、台湾のパッケージベンダーASEがパッケージングを、台湾ファウンダリUMCがインタポーザを提供している。

　TSMCはCoWoSとInFOによって、ファウンダリであるTSMCがパッケージングも取りこもうとしている。NVIDIAのCoWoS採用やAppleのInFO採用は、TSMCによるファウンダリ＋パッケージングの垂直ソリューションの好例だ。

　それに対して、AMDのFijiは、TSMCによる垂直型のパッケージングではなく、パッケージングを別ベンダーが提供する従来の水平分散モデルを取っている。

　これは、AMDがFijiを開発した時点では、大型ダイのGPUへのHBM搭載はまだ模索状態で、パッケージベンダーとして実績のあるASEに助けを求めたためと言われている。ちなみに、Fijiも、1,010平方mmの拡大インタポーザを使っており、UMCがTSMCと類似のアプローチをとったと見られる。ただし、TSMCとは製造工程が異なると思われる。

AMDのFijiはUMC/ASEを採用

　TSMCのCoWoSは、製造工程においてシリコンインタポーザのウェハのままで、ダイの積層などの工程をすべて行なってしまう。

ほとんどの工程が終わってから、ダイに切り分ける(ダイシング)。それに対して、インタポーザを切り分けてから積層やバンプ接続などの工程を行なう方法があり、「CoCoS(Chip-On-Chip-On-Substrate)」と呼ばれる。FijiはCoCoSで製造されているとTSMCは説明する。

　また、TSMCは、自社のCoWoSが技術的にCoCoSよりも有利であると説明する。簡単に言えば、同じようにHBM2を使っていても、パッケージ技術によって差が出るとTSMCは主張している。

　具体的には、CoWoSでは、GPUダイとHBM2スタックのベースロジックダイの間を極めて近接して配置できるという。

VLSIシンポジウムでは、TSMCはCoCoSよりもCoWoSのほうがデータ転送の信号品質やロス、電力消費のいずれの面でも優れると説明した

HBM2世代の巨大GPUに最適化したCoWoS2

　面積が大きなインタポーザの難点の1つは、メカニカルなストレスに弱いことだ。極めて薄いインタポーザ上に積層したHBM2などを積むため、ゆがみやすい。

　この問題は、NVIDIAが、昨年の半導体カンファレンス「Semicon West」で指摘していた。ただ、NVIDIAはこれをシステムレベルのマテリアルとプロセスの最適化によって解決できると説明している。

曲がるインタポーザ

ストレスがかかる場所

　VLSIシンポジウムでは、TSMCから最適化の方法などが明らかにされた。ポイントはGPUダイとHBM2スタックという異なる種類のダイ/スタックの高さを揃えること。同厚に揃えることで、ヒートスプレッダからのストレスを均等に分散する。TSMCはこれを「Encapsulation(カプセル化)」と呼んでいる。

　HBM2のスタックは、8Hi(8ダイの積層)を見越して720μmに揃えられている。GPU側もその厚さに厳密に合わせると見られる。これによって、信頼性と排熱がより向上する。

GPUとHBM2スタックの高さが揃っているGP100

VLSIシンポジウムで説明されたEncapsulation

Encapsulationによってストレスが解消される

720μmのHBM2の厚さにホストダイも合わせる

　NVIDIA GPUが採用したHBM2は、最初のHBM1に対してデータ転送レートが最大2倍の2Gtps(Giga transfer per second)にまで上がる。

　また、8個のダイを積層する8Hiも可能になる。そのため、信頼性や信号品質が重要となる。TSMCはCoWoSではその点も強味があるとしている。

高速化と大容量化したHBM2

CoWoSの利点　』
GPUモジュールも将来はウェハサイズに。第2世代の「SoW」をTSMCが開発中

8月 1, 2025

コンピューター、関連, GPU、関連

GPUモジュールも将来はウェハサイズに。第2世代の「SoW」をTSMCが開発中
https://pc.watch.impress.co.jp/docs/column/semicon/2035515.html

『福田昭2025年7月31日 10:07

第2世代のウェハサイズパッケージ「SoW-X」の平面図と断面構造図。TSMCが2025年6月11日に配布した報道機関向け資料から抜粋したもの

　TSMCはこのほど、直径が約300mmと巨大なシリコンウェハあるいは同じサイズの円板状キャリアにシステムを集積する超大型パッケージング技術「システム・オン・ウェハ(SoW: System on Wafer)」の「第2世代品」を開発していることと、その技術概要を公表した。

　SoWは、ミニダイ(チップレット)やチップレットの積層モジュール、メモリモジュール、電源モジュール、入出力、放熱プレートなどを直径が約300mmと巨大な円板状キャリアの両面に搭載する。

ミニダイやメモリなどは再配線層(RDL)を通じて高密度かつ近距離で相互に接続し、超広帯域の信号伝送を実現する。

　直径が約300mmの円板という形状とサイズは、半導体製造装置がごく普通に扱う形状とサイズでもある。

このため、半導体製造の要素技術を適用しやすい。既存の製造装置をベースにしたカスタマイズが比較的容易というメリットもある。

　TSMCはSoWの第1世代品「InFO_SoW」を2019年に開発し、量産を始めた。

この第1世代品を同社は、「InFO_(Integrated Fan-Out、基本的にはFO-WLPと同じ)」技術のRDLサイズを、直径が約300mmの円板に拡大したパッケージング技術と位置付けていた。
第1世代品InFO_SoWの技術概要と応用事例は、本コラムの前回で解説した。ご興味のある方は参照されたい。

関連記事

【福田昭のセミコン業界最前線】スケールが桁違い。TSMCが注力する超大規模高速パッケージ「SoW」とは

第1世代品はロジック、第2世代品はロジックとメモリを集積

　本コラムの前回末尾でも述べたように、TSMCはSoWの第1世代品を「SoW-P」に改称するともに、第2世代品を「SoW-X(eXtreme)」と名付けた。

　同社は2025年5月下旬に米国で開催されたパッケージング技術の国際学会ECTC 2025で、SoW-Pは主要回路としてSoCだけを300mmウェハサイズに集積する技術であるのに対し、SoW-Xは主要回路としてSoCとHBMを混載する異種集積(ヘテロジニアス・インテグレーション)技術だと口頭で説明していた。

SoW-P(InFO-SoW)とSoW-X(eXtreme)の平面図。SoW-P(InFO-SoW)は 2020年6月に開催された国際学会「ECTC 2020」でTSMCが発表した論文から抜粋したもの。

SoW-X(eXtreme)は2025年6月11日にTSMCが配布した報道機関向け資料から抜粋したもの

第2世代品は高性能パッケージ「CoWoS」の発展形

　もう1つの大きな違いは、第1世代品がInFO技術の大型化であるのに対し、第2世代品は高性能パッケージ「CoWoS(Chip on Wafer on Substrate)」を大型化したものであることだ。

CoWoSでは、パッケージ基板(樹脂基板)とシリコンダイ(マルチチップ)の間に別の基板(中間基板またはインタポーザと呼ばれる)を挟む。

　RDLはビア径/間隔と配線幅/間隔がパッケージ基板よりもはるかに小さい。

隣り合うチップの間隔を大幅に短くするとともに、入出力配線の密度を大きく高められる。

単位長当たりのデータ転送速度が著しく上昇する。

CoWoSの中間基板には当初、シリコン基板(Siインタポーザ)が選ばれた。

シリコンの中間基板はシリコンダイと熱膨張率がほぼ同じなので、温度変化による歪みが原理的には起こらない(実際には製造工程に工夫が必要)。

　CoWoSの初期製品は2012年に登場した。

FPGAの大手メーカー2社が、FPGAのマルチチップモジュールに採用した。

たとえば1つはFPGAの同じダイ4枚をSiインタポーザ上に近接配置したモジュール、もう1つはFPGAのダイ1枚とメモリのダイ1枚をSiインタポーザ上に近接配置したモジュールである。

Siインタポーザの面積は最大775平方mmで、ArFスキャナの露光領域858平方mmにかなり近い。1枚のマスク(レチクル)で露光できるギリギリのサイズだとも言える。

CoWoSの巨大化を牽引したブレークスルー「スティッチング」

　CoWoSの実質的な普及は2016年の第2期から始まったと言えよう。

ArFスキャナの露光領域858平方mmを超える、巨大なSiインタポーザを量産できるようになったことが大きい。

GPU大手のNVIDIAが大規模GPU「GP100」のパッケージにSiインタポーザ技術を採用したのだ。

GPUチップGP100を1個と、HBM2モジュールを4個、Siインタポーザに混載した。Siインタポーザの面積は1,160平方mmである。

　Siインタポーザ1枚の製造には2枚のマスクを使う。

マスクで露光する長方形領域の1辺をわずかに重ねてつなぐことにより、マスク1枚の露光面積をはるかに超える大きさのSiインタポーザを作る。

このつなぎ合わせ技術は「スティッチング(Stitching)」と呼ばれる。

2枚のマスクを使うことで、理論的には1,700平方mm近い大きさのSiインタポーザを製造できる。

関連記事

【後藤弘茂のWeekly海外ニュース】NVIDIAの巨大GPUを支えるTSMCのインタポーザ技術

　スティッチングの開発と改良により、レチクルの3.3倍もの面積に達するSiインタポーザが2023年には製造可能になった(Siインタポーザ当たりで4枚のマスクを使って回路パターンをつなぐ)。

しかしこの段階で、Siインタポーザのこれ以上の拡大は難しくなりつつあった。

インタポーザのコアであるシリコンの材料コストとシリコン貫通ビア(TSV)の製造コストが、インタポーザのサイズ拡大とともに増加し、顧客にとって許容が難しくなってきた。
レチクルの3.3倍でSiインタポーザの大型化は限界に

　そこでシリコンよりもコストの低い有機樹脂をコアに選択したインタポーザがCoWoSに使われるようになってきた。このCoWoS技術は大別すると3種類ある。

　1つはRDLをインタポーザとする「CoWoS-R」、もう1つは「ローカルシリコンインターコネクト(LSI: Local Silicon Interconnect)」と呼ぶシリコンの小片(ブリッジ)を樹脂コアに埋め込む「CoWoS-L」、3番目はLSIとRDLを組み合わせた「CoWoS-L/R」である。

なおSiインタポーザを採用した従来のCoWoSは、最近では区別のために「CoWoS-S」と呼称が変更されている。

高性能パッケージCoWoSの開発ロードマップ。インタポーザの拡大によって大規模かつ高性能なシステムを実現する。2024年12月に開催された国際学会IEDMのショートコースでTSMCが講演したスライドから

高性能GPUメーカーNVIDIAのGPU(AIアクセラレータ)製品とプロセス技術ノード、CoWoS技術、消費電力などの推移。2024年12月に開催された国際学会IEDMのショートコースでTSMCが講演したスライドから

　CoWoS-Rの量産は、中間基板がレチクルの1.4倍と小さめのサイズから始まった。

続いてレチクルの3.3倍と、CoWoS-Sと同じ大きさの中間基板を使うCoWoS-L/Rを開発して量産を始めた。

この段階でCoWoS-Sは開発ロードマップから消え、CoWoS-L/RまたはCoWoS-Lによって中間基板のサイズを拡大する開発ロードマップに換わった。

CoWoSからSoWへ

　2024年12月時点でのCoWoS技術の開発ロードマップは、2025年～2026年にレチクルの5.5倍と大きな中間基板を備えるCoWoS-L/Rを開発し、2026年～2027年にレチクルの8倍を超える巨大な中間基板を備えるCoWoS-Lを開発する計画となっている。

　そして2025年6月11日にTSMCが配布した報道機関向け資料では、CoWoS技術の開発ロードマップは以下のようになっていた。

始めは中間基板がレチクルの3.3倍となるCoWoSである。2個のSoCと8個のHBMモジュールを中間基板に搭載した。パッケージの大きさは80mm角である。

　次に中間基板をレチクルの5.5倍に拡大したCoWoSを開発する。シリコンダイを3次元積層したSoIC(System on Integrated Chips)を2つ、それから12個のHBMモジュール、2個の入出力回路(IO)を中間基板に載せる。パッケージの大きさは100mm角である。

その次は、中間基板をレチクルの9.5倍に拡大したCoWoSを開発する。シリコンダイを3次元積層したSoICを4つ、それから12個のHBMモジュールを中間基板に載せる。パッケージ基板の大きさは120×150mmに達する。

このCoWoSが、2024年12月時点での開発ロードマップで示された「レチクルの8倍を超える巨大な中間基板を備えるCoWoS-L」に相当するとみられる。

CoWoS技術の開発ロードマップとSoW-X技術への移行。TSMCが2025年6月11日に配布した報道機関向け資料から抜粋したもの

　そしてレチクルの9.5倍に中間基板を拡大したCoWoSの次に考えられているのが、300mmウェハ全体から1個のシステムモジュールを切り出すSoWである。

基本単位(ユニット)は中間基板をレチクルの5.5倍に拡大したCoWoSで、ロジックを2つと12個のHBMで構成する(基本ユニットを構成するロジックの数とHBMの数は変わる可能性がある)。

基本ユニットを2次元マトリクス状に配置して相互に接続し、大規模化と高性能化、性能あたりの消費電力低減を鼎立させる。

上下分離のRDLと3種類のシリコンブリッジを駆使

　パッケージング技術の国際学会ECTC 2025でTSMCが公表したSoW-X技術は、CoWoS-L技術をベースとする。

基本ユニットは1個のASIC(ロジック)とその両隣に5個のHBMを配置したサブモジュールである。

原理的にはHBMの最大数は6個なのだが、放熱部を含めたシステム全体を貫通して固定する柱(ピラー)が必要なため、HBM1個分の領域が柱の孔開け用となっている。

　中間基板は上部(シリコンリコンダイ側)にフロントサイドRDL(FSRDL)、中央部に樹脂コア(および樹脂貫通電極(TIV: Through Insulator Via))とローカルシリコンインターコネクト、下部にバックサイドRDL(BSRDL)で構成した。BSRDLの下側には定電圧モジュール(VRM)と入出力回路(コネクタを含む)を配置している。

SoW-P(InFO-SoW、左下)とSoW-X(右上)のRDL。SoW-P(InFO-SoW)は 2020年6月に開催された国際学会ECTC 2020でTSMCが発表した論文から。この図ではRDL部分の詳細を略しているとみられる。SoW-Xは2025年5月下旬に米国で開催された国際学会ECTC 2025で同社が発表した論文から

　FSRDLの配線層数はASICが6層、HBMが9層とかなり多い。

なおHBMは、「HBM4」以降の世代を想定している。

BSRDLの配線層数は信号用が5層、電源用が3層である。バックサイドRDLの信号用配線は長い距離(HBMの下をくぐってASIC間を結ぶ)を伝送するので、特性インピーダンスを90Ωに揃えるとともに差動伝送方式を採用した。

　ローカルシリコンインターコネクトは3種類。1つは隣接するASIC間の接続用(D2D)、もう1つはASICとHBMの接続用(D2M)、3番目はシリコンキャパシタ兼TSV(Through Silicon Via)用である。

SoW-Xのフロアプラン。2025年5月下旬に米国で開催された国際学会ECTC 2025でTSMCが発表した論文から

PCIe接続のクラスタに比べ、消費電力当たりの性能は65%向上

　1個のASICとその両隣に合計5個のHBMを配置したサブモジュール(基本ユニット)を4×4の行列状に配置し、SoW-Xのモジュールを構成した。モジュールのサイズは横方向(水平方向)が218mm、縦方向(垂直方向)が190mmである。レチクルサイズに換算すると約48倍となる。

　このSoW-Xを、レチクルサイズの5.5倍のCoWoS-Lモジュール(2個のASICと12個のHBMで構成)、および、8個のCoWoS-LモジュールをPCIe接続でクラスタ化したシステム(16個のASICと96個のHBMで構成)と比較した。

クラスタ化とSoW-X化で比較すると、消費電力当たりの性能はSoW-Xが約65%高い。ただしCoWoS-Lモジュール単体に比べると、消費電力当たりの性能は27%低下する。

　なおSoW-X全体の消費電力は17kWに達する。水冷による放熱を想定しており、ECTC 2025ではその点についても言及していた。水冷方式の放熱プレートはASICおよびHBMの上に配置する。

CoWoS-Lモジュールとクラスタ化(PCIe接続)、SoW化の比較。2025年5月下旬に米国で開催された国際学会ECTC 2025でTSMCが発表した論文から、筆者が和訳および編集したもの

　SoW-Xの実用化時期は2027年とされる。技術的に困難な課題は今のところあまりなく、高額と見られる製造コストを顧客が受け入れられるかどうかだろう。

問題はむしろ、この後だ。中間基板の寸法拡大による大規模化と高性能化は、ウェハサイズで限界に達したように見える。その先はパネルサイズなのか、ウェハ積層なのか、それとも別の手法なのか。行方を見守りたい。』
アップル A16

2月 18, 2025

コンピューター、関連, スマホ、関連, CPU、関連, GPU、関連

アップル A16
https://en.wikipedia.org/wiki/Apple_A16

『フリー百科事典『ウィキペディア』より

アップル A16 バイオニック

一般情報
発売 2022年9月7日
販売元アップル社
デザイン：アップル社
共通メーカー
TSMC
製品コード APL1W10 [ 1 ]
パフォーマンス
最大CPU クロックレート 2.02GHz～3.46GHz
キャッシュ
L1キャッシュ P コアあたり 320 KB (192 KB 命令 + 128 KB データ)
E コアあたり 224 KB (128 KB 命令 + 96 KB データ)
L2キャッシュ 16 MB (パフォーマンスコア)
4 MB (効率コア)
最終レベルキャッシュ 24MB
アーキテクチャと分類
応用携帯
テクノロジーノード 4nm（N4P）
マイクロアーキテクチャ
エベレスト
鋸歯状
説明書 ARMv8.6-A [ 2 ]
物理的仕様
トランジスタ
160億
コア
6 コア:
2 パフォーマンス
4 効率
メモリ（RAM）
6GB
グラフィックプロセッサ Apple 設計の 5 コア GPU @ 1398 MHz
製品、モデル、バリエーション
変異体
Apple S9/S10 SiP（A16の高効率コアを活用したカットダウンバージョン）
歴史
前任者アップル A15 バイオニック
後継者 Apple A17 Pro ( iPhone 15 Pro、iPhone 15 Pro Max )、Apple A18、Apple A18 Pro ( iPhone 16、iPhone 16 Plus、iPhone 16 Pro、iPhone 16 Pro Max )

Apple A16 Bionicは、 Apple Inc.が設計し、TSMCが製造したAppleシリコンシリーズの一部である64ビット ARMベースのシステムオンチップ（SoC）です。iPhone 14 Pro、14 Pro Max、15、15 Plusに搭載されています。[ 3 ]

デザイン

Apple A16 Bionicは、Apple設計の64ビット6コアCPUで、ARMv8.6-A [ 2 ]を実装し、 3.46GHzで動作する2つの「Everest」[ 4 ] [ 5 ]高性能コアと、2.02GHzで動作する4つの「Sawtooth」 [ 4 ] [ 5 ] 省エネコアを備えており、iPhone 14のA15プロセッサと似た設計となっている。

Appleは、A16は競合製品よりも約40％高速であり[ 3 ] 、新しい効率コアも搭載しており、その大きな利点は、市場に出回っている他の携帯電話の最高効率コアの3分の1の電力しか使用しないことであると主張している。

A16には160億個のトランジスタが搭載されており、 A15の150億個から6.7%増加している。

これには、「Apple Neural Engine」として知られる16個のコアを備えた改良されたニューラルプロセッシングユニット（NPU）、改良された計算写真機能を備えた新しい画像信号プロセッサ（ISP）、およびAppleが「ディスプレイエンジン」と呼ぶ画面関連機能を処理する新しいモジュールが含まれている。[ 3 ]

A16はHEVC、H.264、ProResコーデックのハードウェアビデオエンコードとデコードをサポートしています。[ 8 ]

iPhone 14の発表イベントで、AppleはA16チップをスマートフォン初の4nmプロセッサとして宣伝した。[ 3 ]

しかし、TechInsightsの分析によると、A16はTSMCのN4Pプロセスで製造されたことが判明した。[ 9 ]

「N4P」と呼ばれるこのプロセスは、事実上の5nm製造プロセスであり[ 10 ] 、同じ5nmファミリーの以前の製品であるN5、N5P、N4と比較して、パフォーマンス、電力、密度が向上している。[ 11 ] [ 12 ] [ 13 ] [ 10 ]

2024年9月、TSMCは台湾の主要工場と同じN4Pプロセスを使用してアリゾナ工場でA16チップの生産を開始しました。 [ 14 ]

GPUとメモリ

A16にはAppleが設計した5コアGPUが統合されており、A15のGPUと比較して50%多くのメモリ帯域幅を備えていると言われています。[ 3 ] [ 15 ]

A16のメモリはLPDDR5にアップグレードされ、帯域幅が50%向上し、16コアのニューラルエンジンが7%高速化され、17兆TOPS（1秒あたり17兆回の演算）が可能になった。

比較すると、A15のニューラルエンジンは15.8 TOPSだった。SoCのすべてのバリエーションには6GBのメモリが搭載されている。[ 3 ] [ 6 ]

AppleのAシリーズチップの以前の世代とは異なり、A16は従来のPoP DRAMではなく、A12X / M1パッケージの垂直バージョンを使用している。

このシステムはエポキシガラス基板に基づいており、片側にDRAM、もう片側にA16 SoCが搭載されており、おそらく2つを接続するためにエポキシガラスを貫通するビアがある。

PoPワイヤが削除されたため、A16のDRAM読み取り/書き込みトランザクションあたりのエネルギー消費量はわずかに削減された。[ 16 ]

ISPとディスプレイエンジン

A16チップに搭載された新しい画像プロセッサ（ISP）は、計算写真機能を向上させました。

iPhone 14 Proに搭載された高解像度の画像センサーに対応するように設計されており、1枚の写真につき最大4兆回の演算を実行できます。[ 3 ]

ディスプレイエンジンは、Apple Aシリーズで初めて採用されたものです。

これにより、「常時表示」機能の性能が向上し、1Hzのリフレッシュレート、ディスプレイのピーク輝度の向上、デバイスディスプレイ上のグラフィックスや画像のレンダリングの粗いエッジを滑らかにするアンチエイリアシング技術の改良などのタスクも処理されます。[ 3 ]

ファームウェア

新しい起動音とシャットダウン音が追加されましたが、アクセシビリティでのみ利用可能です。[ 17 ] [ 16 ]

Apple A16 Bionicを搭載した製品

iPhone 14 Pro & 14 Pro Max
iPhone 15 & 15 Plus

参照

Apple Silicon は、Appleが自社製品向けに設計したARMベースのプロセッサシリーズです。
Armv8-Aプロセッサの比較

参考文献

「iPhone 14 Pro Max チップ ID」。iFixit。2022年9月18日。 2022年10月18日閲覧。
“llvm-project/llvm/unittests/TargetParser/TargetParserTest.cpp at main · llvm/llvm-project · GitHub”. GitHub . 2024 年 9 月 10 日2024 年9 月 10 日に取得.
Hristov, Victor (2022年9月17日).「A16 Bionicの解説：Appleのプログレードモバイルチップの新機能は？」.Phone Arena.2022年9月11日時点のオリジナルよりアーカイブ2024年2月20日閲覧。
「iPhone14 Pro向けA16のCPUコアのコードネームが明らかに―リーカーが投稿」。iPhoneWired。2022年9月12日2022年9月13日時点のオリジナルよりアーカイブ2022年9月13日閲覧。
Buckner, Sanjay (2022年9月13日).「AppleのA16 Bionicが新しいコアを搭載、コードネームは山にちなんで」。NewsRevive。2022年9月13日時点のオリジナルよりアーカイブ2022年9月13日閲覧。
「A16チップセットを搭載したiPhone 14 Pro MaxがGeekbenchに登場、パフォーマンスは最小限に改善」。GSMArena。2022年9月10日時点のオリジナルよりアーカイブ。2022年9月11日閲覧。
「AArch64: 新しいApple CPUのサポートを追加」 . github.com . 2022年9月24日閲覧。
「iPhone 14 Pro – 技術仕様」。Appleサポート。 2022年11月5日閲覧。
「Apple APL1W10 A16 Bionic TSMC N4P FinFETアプリケーションプロセッサのデジタルフロアプラン分析」。TechInsights。2023年2月14日閲覧。
Cross, Jason (2023年1月5日).「Appleの3nm iPhoneチップの優位性（そしてそれが本当に重要でない理由）」.MacWorld2023年2月23日閲覧。
“5nmテクノロジー” TSMC . 2022年9月8日時点のオリジナルよりアーカイブ。2022年9月10日閲覧。
Schor, David (2021年10月26日). 「TSMC、パフォーマンスが向上した新しいN4Pノードで5nmファミリーを拡張」 . WikiChip Fuse . 2022年5月29日時点のオリジナルよりアーカイブ。 2022年9月11日閲覧。
“N3E が N3 に取って代わり、さまざまなフレーバーが登場” WikiChip Fuse . 2022年9月4日. 2022年9月10日時点のオリジナルよりアーカイブ。 2022年9月11日閲覧。
「Apple、米国のTSMC工場にA16 SoCの生産を発注」。notebookcheck.net 。 2024年9月19日閲覧。
「Apple A16 Bionic：新しいチップについて知っておくべきことすべて」。Trusted Reviews。2022年9月7日。2022年9月11日時点のオリジナルよりアーカイブ。 2022年9月11日閲覧。
「iPhone 14 Proの心臓部、「A16 Bionic」を解析する」.EE Times Japan(日本語)。2023 年2 月 15 日に取得。
Rossignol, Joe (2022年9月7日). 「iPhone 14は電源を入れるとMacのような起動音を発する」。MacRumours 。 2024年2月20日閲覧。
先行
アップル A15 バイオニック
アップル A16 バイオニック
2022 後継者
アップル A17 プロ
ヴte
アップル社
ヴte
アップルシリコン
ヴte
Appleハードウェア
ヴte
アプリケーション ARMベースチップ
カテゴリー:2022年のコンピュータ関連の紹介アップルシリコン
このページの最終更新日は 2025年2月9日 (日) 07:57 (UTC)です。
テキストは、クリエイティブ・コモンズ表示-継承 4.0 ライセンスの下で利用可能です。追加の条件が適用される場合があります。このサイトを利用することで、利用規約とプライバシーポリシーに同意したことになります。Wikipedia® は、非営利団体であるWikimedia Foundation, Inc.の登録商標です。』
そろそろ、ハード的な限界の見えてきた集積密度

2月 15, 2025

コンピューター、関連, CPU、関連, GPU、関連

そろそろ、ハード的な限界の見えてきた集積密度
http://blog.livedoor.jp/goldentail/archives/36186828.html

『2025 2月14

電子回路の細密化というのは、昔は倍々で進んできたのですが、そろそろ限界が近いようです。今の先端は、量産ベースで4nm(ナノミリ、1/1000ミリの単位)、研究ベースで2nmです。流通している殆どの高性能と言われるCPU、GPUの集積密度は、7nmですね。ちなみに、中国に輸出が許可されている露光装置(シリコン・ウェーハーに電子回路パターンを焼く装置。オランダのAMSLの独壇場の市場です。製造できるのが、そこしかありません)は、14nmまでの集積密度で、それ未満の集積密度で電子回路の焼付ができません。そのはずだったのですが、ハーウェイの発売したスマホ、Mate 60 Proに7nmの集積密度のチップが使われていて話題になりました。ハーウェイは、このチップの製造を、中国の半導体メーカーであるSMICへ発注したと言われているからです。

このように、集積密度=処理性能という図式が成立しているのですが、これが物理的に限界に来ています。この集積密度だと、余りにも回路間の幅が無いので、電子レベルで干渉を受けて、誤動作したり、高い電力消費によって、発熱が酷い事になり、回路の劣化が進み、寿命が実用に適さなくなるからです。集積密度が処理性能の向上に重要な理由は単純で、力技でそのチップで動く、全ての処理を高速で行えるようになるからです。つまり、ソフト側で工夫をしなくても、単純に処理スピードが上がります。

ところが、最近、パソコン用に開発されたGPUや、CPUが、今までに無いような故障の仕方をしています。例えば、RX5000シリーズという、発売されたばかりのnVIDIAのGPUですが、余りにも消費電力が大きいので、コネクタ部分が焼き切れるという、今まで聞いた事の無い故障が報告されています。消費電力が電子レンジ並みに大きいので、そういう発熱体を、精密部品の塊である基盤に接続して使う事自体が、無理があるのですが、処理スピードを上げるには避けられない問題です。しかも、冷却ファンと、放熱板の重みで、マザーボードがたわむくらい巨大化しています。

また、CPUの方も、消費電力が大きくなり、発熱が高熱になる傾向は同じで、こっちも、CPUと基盤の接点部分が焼けるという、余り聞いた事の無い故障が報告されています。こういう事故は、主に自作パソコンなどで、グリスの塗りムラなどで、皆無ではなかったのですが、あくまで製作サイドの組み立てミスに起因する事が多く、普通は無い故障です。あ、例外的にPentium4という、Intelの古い規格のCPUが、無理やりにクロック周波数を上げて、処理スピードを稼いでいて、冷却が弱いと煙を上げて燃えるという事がありましたけどね。自作派から地雷CPUとして、認識されていたシリーズです。

つまり、この発熱という問題が、物理的に集積密度の限界を示しつつあり、パソコンの性能が上がるに比例して、事故る確率と寿命の短命化が伸びています。集積密度が上がらなくなると、処理方法でスピードの向上を図るしか手段が無くなり、ハードウェア的には、多積層化といって、回路の上に別の回路パターンを焼き付けて、集積密度を上げずに処理スピードを稼いだり、処理の重い事は、別回路で専用に処理したりして工夫しています。ただし、あくまでも、工夫なので、以前のように、シリーズが更新されると、当たり前のように、旧世代より20%も30%も、全体の処理スピードが上がるという事は無くなりました。あくまで、特定の処理に限ってスピードが改善されるとか、そういう話になっています。

処理性能的には、ドン詰まりの上、昔のパソコンより、発熱が異常に伸びているので、故障しやすく、寿命は短くなっています。今のまま、電子回路を使って処理する方法は、この辺りが限界でしょう。また、このまま、電力に頼った処理を続けていると、EVなどを除いたIT業界だけの電力消費だけで、世界の発電能力を限界突破してしまいます。そこで、今後は、IWONという光電融合技術を用いた、デバイスの変換が進むと見られています。オン・オフの信号を伝えるには、電気信号でなくても、光の明滅でも良いわけで、光は基本的に発熱が低いです。全ての部分を置き換える事は、今のところ不可能ですが、低電力・高速化が期待できる新しい技術です。

今のインフラを維持し続けるだけでも、世界中の電力の消費量は、急カーブを描いて増え続ける事が予想されているので、発電量限界が、技術革新のボトルネックになる世界は、そう遠くない未来です。その時の解決の可能性が、電子回路に代わる光回路の導入です。
「時事雑感」カテゴリの最新記事

凄く、心配になってきたイーロン・マスク。
米国国際開発庁(USAID)が、バラ撒いていた公金
ディープラーニングが成果を出す仕組みを、実は設計者は把握していない。
皆さーん。幸福なのは義務なんです。果たしてますかぁ～。
揺り籠から墓場までの末路

タグ：#電子回路#光回路#IWON』
ARM11から最新CPUまで　ARM系プロセッサーの仕組み（2010年12月27日）

2月 15, 2025

コンピューター、関連, GPU、関連
ARM11から最新CPUまで　ARM系プロセッサーの仕組み（2010年12月27日）
https://ascii.jp/elem/000/000/579/579255/

『ARM編第1回の前回で、おおまかなロードマップと製品の特徴は説明した。今回はもう少し細かく、アーキテクチャーの特徴などを説明していきたい。

　といっても、ARMプロセッサーは何しろ種類が多い。そこで話をアプリケーションプロセッサーに限り、「ARM11」以降の話をしよう。
ARMプロセッサーのロードマップ概要

ARMプロセッサーのロードマップ概要

大きな改良とともに登場した ARM11

　ARM11のベースとなる「ARM v6」アーキテクチャーが発表されたのは、2001年10月に開催された半導体業界イベント「Micro Processor Forum(MPF) 2001」でのことだ。当時の発表資料を見ると、ARM v5からの改善事項として以下の項目が挙げられている。
```
キャッシュアーキテクチャーの改善
SIMDの搭載
命令セットの改善
SoC/マルチプロセッサー向けの改良
(同期メカニズムの搭載や新メモリーモデルのサポート)
```
　具体的にはバイエンディアンのサポート※1や、「Unaligned Memory Access」の対応※2、1次キャッシュのサポート(ARM v5までキャッシュは1階層)、「VMSA(Virtual Memory System Architecture) v6」の搭載などの項目が並んでいる。
※1 それまでのARMはリトルエンディアンのみサポートしていたが、ARM v6からLリトルエンディアン/ビッグエンディアンの両方をサポートするようになった。
※2 ARM v5までは、メモリーアクセスは必ず4byte単位だったが、v6から2/1byte単位のアクセスも可能になった。

　もっとも、2001年に発表されたのはあくまでも命令セットであるARM v6のみ。これを実装した最初のARM11コアである「ARM1136J-S」「ARM1136JF-S」の発表は、2002年10月に開催された「MPF2002」となった。

　ARM1136J-Sの内部構造は、図1のようになっている。CPUコアについては後述するが、その両側に命令/データの1次キャッシュと「TCM」がそれぞれ配されている。TCMとは「Tightly Coupled Memory」の略で、簡単に言えばCPUから極めて高速(ほぼ1次キャッシュと同じレイテンシ/バンド幅)でアクセスできるメモリーである。
図1

図1 ARM1136J-Sの内部構造(MPF2002資料より引用)

　「それならキャッシュでいいだろう？」という声が聞こえそうだが、キャッシュの場合、基本的にはハードウェアが勝手にFill/Retireをしてしまう(プリフェッチ命令などを使い、ある程度明示的に制御することも不可能ではないが)。そのため、例えばリアルタイム制御における割り込みハンドラのような、「キャッシュミスを起こすとそれだけで処理がタイムアウトする」ような性能に厳しい処理の場合、キャッシュに頼らずに確実にプログラムのロード(フェッチ)ができる方法が必要になる。

　こうしたケースで役に立つのが、キャッシュ並みに高速なメモリーである。サイズそのものは小さいから(構成によるが、後述の例では16KB)、大きな処理ロジックを載せるには不向きだが、割り込み処理ルーチンくらいなら楽に搭載できる。これはデータ側のTCMも同じだ。例えば周辺機器と高速にデータ入出力を行なう必要がある場合、通常のメモリー経由では余分にレイテンシが掛かってしまう(メモリーから一度キャッシュを経由するため)。しかし、外部からTCMにそのままDMA転送でアクセスすれば、キャッシュを経由しない分少ないレイテンシーでアクセスできるわけだ。

　TCMに類するものは、例えばMIPS系であれば「ScratchPad」と呼ばれるメモリーが利用できる。PowerPC系にはTCM/ScratchPadはないものの、「Cache Stashing」(CPU外部から直接キャッシュの内容を書き換える)という機構を持ったものがあり、これでData TCMの代替が可能である。

　こうした特長は、当時はまだARM11がアプリケーションプロセッサーよりもコントローラー的な用途に使われるケースが多いと、想定されていたことに起因すると考えていいだろう。ほかにも、図1左上には割り込みコントローラ(Interrupt Vector Port)、右上にはコプロセッサー用のインターフェースが用意されている。単にCPUだけではなく、さまざまなコプロセッサーと組み合わせて使うことを当初から想定してあるあたりは、単なるアプリケーションプロセッサーとは大分異なる。

　もっとも、搭載するのはあくまでもキャッシュとTCMだけで、肝心のメモリーやメモリーコントローラーを内蔵しないあたりは、コントローラーというよりもプロセッサー向けの構造といえる。』

『ARM11のパイプライン構造
図2

図2 ARM1136J-Sの整数演算パイプラインの構造

図3

図3 ARM1136J-Sの浮動小数点演算パイプラインの構造

　続いて内部構造について説明しよう。図2が整数演算パイプラインで、図3が浮動小数点演算のパイプライン構造となる。誤解を招かないように書いておくと、ARM11は基本的にシングルイシュー/インオーダーのプロセッサーである。図2ではまるで2命令同時実行が可能なように見えるが、もちろんそんなわけはない。単に実行ユニット部が「ALU/MACパイプライン」と「LSUパイプライン」に分かれている、というだけの話である。これは図3のVFPも同じである。

　ちなみに、なぜ「VFP」と言うかといえば、ARM v5まではSIMDはサポートされていなかったため(XScaleの独自拡張であるWireless MMXは除外する)、ARM10までは「FPU」と称していた。ところがARM v6でSIMD拡張が行なわれ、FPUがSIMD演算をサポートしたために、VFPと称するようになったわけだ。

　ARM11のパイプラインは、整数演算が8段、浮動小数点が8～16段という、組み込みプロセッサーとしてはやや長いパイプライン構造となっている。もっとも2002年といえば、インテルは「Northwood」(Pentium 4)、AMDは「Palomino」(Athlon)をリリースしていた頃だ。前者は20段、後者ですら10段のパイプラインだから、これに比べればまだ少ないという言い方もできる。

　このARM11の発表の際には、リファレンスデザインの実装例も示された(図4)。TSMCの130nm LVプロセスを使い、最悪でも400MHzで動作すること、その際の消費電力は(外部のメモリーを除くと)0.4mW/MHz、つまり400MHz駆動で160mWにすぎないこと、エリア面積(ダイサイズとは異なる)は8.2mm2程度で収まることなどが紹介された。
図4

図4 ARM1136JF-Sのリファレンスデザイン

　このARM1136J(F)-Sが、ARM11初のコアである。これに続き、「Thumb-2」という新しい拡張命令搭載した「ARM1156T2(F)-S」が2003年10月に発表された。翌2004年にはさらに、「TrustZone」というメモリー保護機構を搭載した「ARM1176J(F)-S」がリリースされる。

　ARM1136J(F)-Sは公称1.25DMIPS/MHzの性能を備えており、この数字はARM1176J(F)-Sも変わらなかったが、Thumb-2を搭載したARM1156T2(F)-Sは、1.41DMIPS/MHzに達している。その一方で、製造プロセスの改善による性能向上の効果も著しい。ARM1156T2(F)-Sは台湾TSMCの「90nm G(標準)プロセス」で600MHz駆動、消費電力は0.42mW/MHz、エリア面積は1.75mm2となっている。

　もっと上を行くのがARM1176J(F)-Sで、TSMCの40nm Gプロセスを使うことで990MHz駆動が可能になり、エリア面積は1.17mm2、消費電力は0.105mW/MHzまで押さえ込めるとしている。TSMCの40nm Gプロセスはごく最近のプロセスだが、当時のTSMCの90nm Gプロセスを使っても、252mWほどの消費電力で840DMIPS程度の性能だから、これは十分に高性能と言える数字である。

　これらの改良で性能不足に対応したほか、さらにARMはARM v6をベースにしたマルチプロセッサー構成のアーキテクチャーを、2004年5月に開催された組み込み機器向けイベント「EPF(Embedded Processor Forum) 2004」で発表した。これは「ARM MPCore」として製品化されている(図5)。』

『Cortex-A8でスーパースカラーの実装に踏み切る

　性能向上と並行して、ARMは次世代コアの開発も行なっており、これは「ARM v7」アーキテクチャーとして2005年に発表された。ARM v7に関してはアーキテクチャーそのものと同時に、実装したコアである「Cortex-A8」も同時に発表されている。Cortex-A8の名前は、スマートフォンやタブレット端末のCPUとして、よく目にするだろう。

　Cortex-A8の設計目標は「1GHz駆動で2000DMIPS」、つまり2.0DMIPS/MHzの実現である(図6)。これの実現のために、ARMとしては初のスーパースカラーの実装に踏み切った。
図6

図6 発表当時のARMのロードマップ。オレンジ色がCortex-A8(FPF2005資料より引用)

　図7はCortex-A8のパイプライン構造であるが、図左にあるように命令フェッチの時点で2命令/サイクルの取り込みを行ない(矢印が2本出ている)、これをデコードして同時2命令発行を実現している。
図7

図7 Cortex-A8の構造図

　実行ユニットは3つ用意され、それぞれは独立して実行されるという仕組みだ。図7では4つに見えるが、「ALU pipe 0」と「MUL pipe 0」は実はひとつのパイプで、ALUかMultiply(乗算)のどちらかを実行できる。ただしアウトオブオーダーは、Coetex-A8ではまだ実装されていない。

　当然ながら、これを支えるメモリーシステムも大きく変化している。ロード/ストアパイプラインや、これと連動するバスインターフェースユニットのパイプラインは、2次キャッシュの存在を前提に構成されていることがわかる(図8)。
図8

図8 Cortex-A8のメモリーシステムパイプライン

　こうした構成は、従来ARMが得意としてきたコントローラー系の用途にはまるで適さない。逆に言えば、ARM v7では「Cortex-A/R/M」という3種類にアーキテクチャーを分け、それぞれに適した内部構成を採用することで、こうした構成が可能になったと言える。

　ちなみに、この時にはまだ設計目標が示されただけで、実際の性能値などは示されなかった。2006年5月に開催された半導体関連イベント「Spring Processor Forum 2006」(SPF2006)では、ARMから実装例が発表されている(図9)。
図9

図9 Cortex-A8のプロセスと駆動電圧、性能目標
```
TSMC 90nm Gプロセス、1.0V駆動、2000DMIPS、0.58mW/MHz
TSMC 65nm LPプロセス、1.2V駆動、1875DMIPS、0.5～0.55mW/MHz
TSMC 65nm LPプロセス、1.1V駆動、1550DMIPS、0.34～0.4mW/MHz
```
　さすがに同じ90nm Gプロセスを使うと、ARM1176J(F)-Sより消費電力が増えているが、65nmのLPプロセスで低電圧駆動させた場合、多くても310mW程度で済んでいる。それでいて性能は2倍になっているのだから、これは大きな進歩と言える。』

『Cortex-A9で性能強化、Cortex-A5は低消費電力強化

　このCortex-A8にアウトオブオーダーを実装したのが、「Cortex-A9」である(図10)。パイプラインは8ステージで9～11段の可変長となり、最大4命令/サイクルのディスパッチ性能を持つ(フェッチ/デコードそのものは引き続き2命令/サイクル)。これにより、最大で2.5DMIPS/MHzまで処理性能を引き上げられた。
図10

図10 Cortex-A9のパイプライン構成(ARM Developers’ Conference 2007資料より引用)

　また、Cortex-A9では当初からマルチプロセッサー構成が考慮されており、4プロセッサーまではスケーラブルに対応が可能である。5プロセッサー以上も可能だが、その場合は4プロセッサー単位で「クラスター」という論理構成を作り(図11)、このクラスター同士を「AMBA 3」と呼ぶチップ内バスで接続する形になる。
図11

図11 4プロセッサーで1単位となるクラスターの構造

　TSMCの65nm Gプロセスを使い、性能優先の最適化で構成した場合、Cortex-A9は830MHz駆動で2075DMIPS、消費電力はおよそ0.48mW/MHz程度となり、従来と同等レベルの性能/消費電力に抑えられている。また、同じTSMCでも40nm Gプロセスを使った場合、性能最適化なら2GHz駆動、消費電力最適化ならば0.31mW/MHzが可能という。

　特に性能最適化の場合では、デュアル構成で10000DMIPS、1.9Wという数字も示されている。このクラスになるとローエンドのx86とほぼ同じ性能レンジに突入しており、結果として昨今では、タブレット端末などに多く利用されるようになってきたわけだ。

　このCortex-A9に続いて発表されたのは、Cortex-Aシリーズのローエンドともいえる「Cortex-A5」である。Cortex-A8が事実上Cortex-A9で代替される一方で、「Cortex-A9ほどの性能は必要ないから、もっと低消費電力/省サイズのアプリケーションプロセッサーコアが欲しい」というニーズに応えたものだ。

　この結果、内部構造はCortex-A8をシングルイシューに戻したような形となっている(図12)。
図12

図12 Cortex-A5のパイプライン構成(ARM Forum 2009資料より引用)

　もっとも図にあるように、分岐状況によっては一時的にデュアルイシューで動作することもある。性能は1.57DMIPS/MHz程度で、Cortex-A8/A9に比べれば低いが、同じシングルイシューのARM11と比較すると、性能は20％増しになっている。TSMCの40nm Gプロセスを使った場合、1GHz以上の動作周波数で消費電力は0.08mW/MHz以下、40nm LPプロセスを使った場合でも600MHz程度の動作周波数で0.12mW/MHzと発表されている。
Cortex-A9の2倍の性能を目指すCortex-A15

　Cortex-A5/A8/A9と揃ったラインナップで、2010年に追加されたのが「Cortex-A15」コアである。こちらはまだ内部構造などは明らかにされていないが、Cortex-A9の拡張とでも言うべき方向性で、以下の特徴を持つことが明らかにされている。
```
3命令/サイクルのデコードと8命令/サイクルのディスパッチを持つアウトオブオーダーのスーパースカラー構造。
トータルでおおむねCortex-A9の2倍程度の性能。
1次キャッシュはCortex-A9までの16KBから2倍の32KBに。さらに最大4MBのL2キャッシュを搭載。
メモリーなどの外部インターフェースには、128bit幅の「AMBA 4」を採用。
64bitアドレッシングや仮想化のサポート。
```
　また、Cortex-A9をさらに拡張したマルチプロセッサー構成をサポートし、当初から1～8コアの構成が用意されるようだ。

　さて、随分長くなってしまったので今回はここまで。次回はもう少し実際の製品をご紹介したいと思う。それでは皆様、良いお年を。』
NVIDIA、アーム保有株が減少　中国自動運転企業に投資

2月 15, 2025

コンピューター、関連, ハード関連企業、関連, GPU、関連

NVIDIA、アーム保有株が減少　中国自動運転企業に投資
https://www.nikkei.com/article/DGXZQOGN14EJE0U5A210C2000000/

『2025年2月15日 4:50 [会員限定記事]

【シリコンバレー=清水孝輔】米エヌビディアは14日、米証券取引委員会（SEC）に保有株に関する報告書を提出した。ソフトバンクグループ（SBG）傘下の英半導体設計大手アームの保有株を数カ月で約4割減らした一方、自動運転技術を手がける中国の文遠知行（ウィーライド）の株式を取得したことが明らかになった。

アームの株価は14日の米株式市場で一時、前日の終値に比べ約5%下落した。ウィーライドの株価は14日…

この記事は会員限定です。登録すると続きをお読みいただけます。』