※ 今日は、こんな所で…。
※ テキスト変換は、手持ちの変換ソフト。翻訳は、手持ちの機械翻訳ソフト。
機密情報
Converged ベクトル ISA :
インテルRの進歩したベクトル拡張10
https://www.intel.com/content/www/us/en/content-details/784343/the-converged-vector-isa-intel-advanced-vector-extensions-10-technical-paper.html
専門的なペーパー
2023年7月
修正1.0
オーダー・ナンバー:356368-001 合衆国



通知&断り書き
インテル技術が割込み可能ハードウェア、ソフトウェアあるいはサービス起動を必要とするかもしれません。
どんなプロダクトあるいはコンポーネントが絶対的に安全であり得ません。
結果が推測されるか、あるいはシミュレートされました。
あなたのコストと結果は変化するかもしれません。
あなたはここに記述されたインテルプロダクトに関してどんなも侵害に関連したこのドキュメントあるいは他の法律上の分析の使用を使うか、あるいは容易にしないかもしれません。 あなたはここに発表された主題を含むその後立案されたどんな特許出願にでもインテルに非排他的な、特許料免除の認可を認めることに同意します。
ああプロダクト計画とロードマップは通知なしで変更を受け得ます。
記述されたプロダクトはプロダクトを発表された仕様から外れさせるかもしれない誤字として知られているデザイン欠陥あるいはエラーを含むかもしれません。 最新の特徴づけられた誤字は要求すればすぐに利用可能です。
インテルが否認するアル・特別な、そして暗黙の!が貿易でパフォーマンスのコース、カードを配るコース、あるいは用法から生じているどんな保証書と比べてでも同じぐらい weH に、限界なしでを含めて、商品価値、特定の目的のためのフィットネスと非侵害、の暗黙の保証書を保証する.
コードネームがインテルによってプロダクト、開発で、そして公的に利用可能でない技術、あるいはサービスを識別するために使われます。 これらは「宣伝用の」名前でなくて、そしてトレードマークとしての機能を果たすはずではありませんでした。
(禁反言によって、あるいはさもなければ、特別か、あるいは暗黙の)ライセンスが知的所有権に、 a) あなたが未改質のコピーを発表するかもしれない、そして b) このドキュメントに含まれているコードがゼロの条項の BSD オープンソースライセンス(OBSD)、 https://opensource.org/licenses/OBSD を条件として認可されるという唯一の例外で、このドキュメントによって与えられません。 あなたはこのドキュメントに基づいて、そしてこのドキュメントで参照されたインテルプロダクトの上に実行するように意図される前述の(人たち・もの)に従ってソフトウェアインプリメンテーションを作ってもよいです。 権利がこの書類の修飾あるいはデリバティブを作成するために与えられません。
cインテル株式会社。 インテル、インテルのロゴと他のインテルマークはインテル株式会社あるいはその子会社のトレードマークです。 他の名前とブランドが他のものの特性として主張されるかもしれません。
書類数:356368-001合衆国、 Revision:1.0
中身
ページ
第1章
CONVERGED ベクトル ISA : インテルR 進歩したベクトル拡張 10
1.1 背景...1 – 1
1.2 インテルR AVX10 へのイントロダクション...1 – 1
1.3 列挙...1 – 2
1.4 パフォーマンス利益...1 – 2
1.5 有効性...1 – 3
1.6 結論...1 – 3
書類数:356368-001合衆国、修正:1.0 iii
中身
ページ
図
図1-1。 インテルR Xeon の向こうのインテルR AVX – 512特徴フラグはプロセッサ世代対インテルR AVX10.1-2 図1-2です。 インテルR ISA 家族と特徴...1 - 3iv
書類数:356368-001合衆国、 Revision:1.0
第1章
ベクトル ISA が一点に集まりました:インテルR ADVANCED ベクトル EXTENSIONS 10インテルRが10(インテルR AVX10)が導入するベクトル拡張子を進めました、 wiH が未来のインテルRプロセッサの向こう側にサポートされるという近代的なベクトルインストラクションがアーキテクチャ(ISA)を設定しました。 これほど新しい ISA 組み込みああインテルRの豊かさは、追加の特徴と能力がそれがスムーズに横切ってパフォーマンスと一貫性を届けているパフォーマンスコアと効率的なコアの向こう側にああプラットホームと述べていることができるようにするという状態で、ベクトル Extensions 512(インテルR AVX – 512)を推進しました. それは機種に基づいて同じく新しい列挙アプローチを導入して、そして、プラットホームがないか並列の特徴破片をチェックするためにデベロッパーの負担を減らして、ベクトル長さをサポートしました。 インテル AVX10 が益するインテル AVX – 512の能力を拡張して、そして拡張するああインテルRプロダクトと wiH は未来に入る好みのベクトル ISA です.
1.1 背景
2016年に、インテルは ISA がインテルの進歩したベクトル Extensions 512(インテル AVX – 512)と命名した効率が良いベクトルの始動でそのベクトル命令セットに主要な更新を開始しました。 インテル AVX – 512 ISA はいくつかの新しい機能を含みました、そしてインテルRの上の能力が512ビットのベクトルレジスタ、離散的な特徴列挙方法論、16の追加のベクトルレジスタ、8つのマスクレジスタを含めてベクトル Extensions 2(インテルR AVX2) ISA 、512ビットのベクトル長さ埋め込みの四捨五入することと新しいインストラクションの大きいセットを推進しました。 長い間に、インテル AVX – 512がそれ自身の CPUID 特徴フラグをそれぞれ使って、多くの追加のインストラクションとともにインストラクション(128と256ビット)のより短いベクトル長さバージョンに対するサポートを含むように変化しました、公演コア(Pコア)のための運転性能と能力がベクトルの作業量に目標を定めました。
命令セット(インテル AVX 、インテル AVX2 とインテル AVX – 512)のインテルR AVX 家族は成功裏にビデオ処理、暗号、 HPC 、アル、ゲームと他のものを含めていろいろなアプリケーションのために広範な産業養子を得ました。 この勢いの上に積み重ねて、インテルは、我々の未来の効率的なコア(E‐コア)とパフォーマンスコア(Pコア)によってサポートされて、次世代のインテル AVX 10が ISA のスタンダードであると発表しています。 10の wiH がスムーズに生態系を可能にするインテル AVX はプロダクトとプラットホームの向こう側にソリューションを統合して、そしてこのあと何年もの間我々のプロダクトの次世代に革新します。
1.2 インテルへのイントロダクション」 AVX10
今日我々はインテル AVX – 512の導入から最もインパクトが強いベクトル ISA 進化を発表しています:インテルはベクトル Extensions 10(インテル AVX10)を推進しました。 AVX10 が含むインテルああインテル AVX – 512 ISA の能力と特徴、共に512ビットのベクトルレジスタを優れた特徴とするプロセッサについては、 weH として、256ビットの最大のベクトルレジスタのサイズを特徴とするプロセッサのために. 加えるに、この ISA はいくつかの新しい能力を含んで、そして特徴サポートがないかチェックされる必要がある CPUID 特徴フラグの数を減らす新しい列挙スキームをサポートします。
インテル
AVX 10は、プラットホームの向こう側にアプリケーションがスムーズに動くことを可能にして、未来のインテルPコアとE‐コアベースのプロセッサで動くよう設計されます。
インテル AVX10 に対する3つのやる気を起こさせる要因があります:
1.高いパフォーマンスをサポートし続けるために、ベクトル ISA でああ既存のインテル AVX – 512 ISA の機能の豊かさ.
2.そうするために作成する、 wiH が存在するとは、インテル AVX – 512にベクトル ISA ベースに一点に集まる上にサポートするああ未来のインテルプロセッサ.
3. CPUID 特徴サポートを実証するデベロッパー仕事を緩和するために。
と AVX512VL 特徴を持っているインテル AVX – 512ベクトルインストラクションがフラグを付ける10のベクトル ISA wiH が含むインテル AVX の機種が一点に集まりました、最大ベクトルレジスタ長さ256ビットの、8つの32ビットのマスクレジスタと支援の256ビットのインストラクションの新しいバージョンが埋め込んだのと同じぐらい weHである四捨五入する. これは一点に集まりました、バージョン wiH がPコアとE‐コア両方の上にサポートされます。 間一点に集まる機種が最大256ビットのベクトル長さ、10自身が256ビットに限定されないインテル AVX に制限される、そして任意の512ビットのベクトルの使用が、Pコアを支えることについて、可能である. それで、インテル AVX 10が続きます、ああ重要なインストラクションをサポートしているPコアプロダクトラインを持っているインテルR Xeon Rからのインテル AVX – 512の利益、ベクトルとマスクが今日までの ISA を構成した長さと能力を記録します。 未来のP -
書類数:356368-001合衆国、修正1.0
1-1
ベクトル ISA が一点に集まりました:10のコアベースの Xeon プロセッサが wiH するインテルR ADVANCED ベクトル延期はサポートにああ影響なしで旧式なアプリケーションが走り続けることを保証しているインテル AVX – 512インストラクションと続けます。
1.3 列挙
デベロッパー共同体は現在のインテル AVX – 512列挙方法が長い間にますます扱いにくくなったというフィードバックを提供しました。 新しいインストラクションが紹介された(とき・から・につれて・ように)、(彼・それ)らはプロセッササポートを決定するためにチェックされる必要があるであろう新しい CPUID 特徴旗を割り当てられました。 Pコアを持っている未来のインテル Xeon プロセッサとして、花こう岩急流とコードネームを付けられて、20以上の離散的なインテル AVX – 512特徴フラグがあることを期待されます。 これを取り上げるために、インテル AVX10 が列挙への新しいバージョン対応アプローチを導入します: ベクトル ISA 特徴かけらがインテルを指定します
AVX10 サポート、インテル AVX10 ISA バージョン数とプロダクトの中で128、256、と512ビットのベクトル長さサポートを列挙している3ビット。
インテル AVX10 ISA バージョン番号 wiH は増加して包括的で、そして monotonicallyです。 デベロッパーがそれを予想することができます
1の wiH が含むインテル AVX10 バージョンnプラスああバージョンnに含まれている特徴と能力. デベロッパー影響を最小にするという述べられたゴールで、インテル AVX10 ISA の新しいバージョンが新しいインストラクションの重要なセットと関連づけられたソフトウェア可動化の努力を正当化する十分な追加の値を届けている能力を含むことを期待されることができます。 まれなケースで、離散的な CPUID 特徴フラグが新しいインテル AVX10 バージョンの間に部分に特定された特徴のために、あるいは暫定始動に関しては割り当てられるかもしれません。
インテル AVX – 512 ISA wiH はインテル AVX10 の導入の時点で氷のように冷たいです、そして旧式なサポートのためにああ wiH が未来のPコアプロセッサで割込み可能であり続けるという CPUID 特徴フラグ。 ああ wiH がただインテル AVX10 の一部として列挙されるという新しい次のベクトル指示。 少数の特殊事例を別として、インストラクションが wiH するそれらはサポートされるでああ128ビットそして256ビットのベクトル長さがサポートされることでのベクトル長さ横切ってああプロセッサとさらにPコアプロセッサでサポートされた512ビットのベクトル長さ.
AVX10
AVX512_FP16 AVX512_FP16
AVX512_VPOPCNTD (10 AVX512_VBMI2 、 VAES 、 GFNI 、 VPCLMULQDQ AVX512 BITALG AVX512_VPOPCNTD (X AVX512_VBMI2 、 VAES 、 GFNI 、 VPCLMULQDQ AVX512 BITALG AVX512_VP 〇 PCNTDQ AVX512_VBMI2 、 VAES 、 GFNI 、 VPCLMULQDQ AVX512 BITALG N AVX512_BF16 AVX512_BF16 AVX512_BF16 AVX512_BF16
AVX512_VNNI AVX512_VNNI AVX512_VNNI AVX512_VNNI AVX512_VNNI AVX512_VBMI 、 AVX512JFMA AVX512_VBMI 、 AVX512JFMA AVX512_VBMI 、 AVX512JFMA AVX512_VBMI 、 AVX512JFMA AVX512_VBMI 、 AVX512JFMA AVX512_VBMI 、 AVX512JFMA 1つの /
AVX512F 、 AVX512CD 、 AVX512BW 、 AVX512DQ AVX512F 、 AVX512CD 、 AVX512BW 、 AVX512DQ AVX512F 、 AVX512CD 、 AVX512BW 、 AVX512DQ AVX512F 、 AVX512CD 、 AVX512BW 、 AVX512DQ AVX512F 、 AVX512CD 、 AVX512BW 、 AVX512DQ AVX512F 、 AVX512CD 、 AVX512BW 、 AVX512DQ AVX512F 、 AVX512CD 、 AVX512BW 、 AVX512DQ レ AVX / AVX2 AVX / AVX2 AVX / AVX2 AVX / AVX2 AVX / AVX2 AVX / AVX2 AVX / AVX2 AVX / AVX2 インテルR Xeon Rの拡大縮小可能なプロセッサ インテルRコア – プロセッサ 2番目の情報インテルR Xeon Rの拡大縮小可能なプロセッサ 4 / 8つのサーバーのための3番目の情報インテルR Xeon Rの拡大縮小可能なプロセッサ 3番目の情報インテルR Xeon Rの拡大縮小可能なプロセッサ 4番目の情報インテルR Xeon Rの拡大縮小可能なプロセッサ 5番目の情報インテルR Xeon Rの拡大縮小可能なプロセッサ 未来のインテルP - コアとE‐コアプロセッサ
図1-1。 インテルR Xeon Rプロセッサ世代対インテルの向こうのインテルR AVX – 512特徴フラグは AVX10 1.4の パフォーマンス利益です
前に明記された有用性利益のほかに、インテル AVX10 のいくつかの追加の業績ベースの給付が次のものを含む:- インテルの AVX2 によってコンパイルされたアプリケーションは、インテル AVX10 にリコンパイルされて、追加のソフトウェア調律の必要なしでパフォーマンス利益を実現するべきです。
- ベクトルレジスタの圧力 wiH に敏感なインテル AVX2 アプリケーションが16の追加のベクトル記録と新しいインストラクションのために最も多くのパフォーマンスを得ます。
- Highly によってスレッドされた vectorizable アプリケーションは、パフォーマンスハイブリッドアーキテクチャでE‐コアベースのインテル Xeon プロセッサあるいはインテルRプロダクト上で走るとき、より高い基礎群スループットを達成する可能性が高いです。
既存のインテル AVX – 512アプリケーションは、(彼・それ)らの多くがすでに最大の256ビットのベクトルを使うという状態で、 iso – ベクトル長さでインテル AVX10 / 256にコンパイルされるとき、同じパフォーマンスを見るべきです。 より大きくてこ入れすることができるアプリケーションのために
1-2
書類数:356368-001合衆国、修正1.0
ベクトル ISA が一点に集まりました: INTEL8 が10ベクトル長さベクトル拡張を推進しました、インテル AVX10 / 512の wiH が、アル、科学的な、そして他の効率が良いコードのために「クラスでのベスト」パフォーマンスを行ない続けて、インテルPコアの上にサポートされます。 新しいインテルR AVX10 ライブラリ、コンパイラとツールサポート wiH が同じくアプリケーションデベロッパーが(そのために)最も良い達成可能なパフォーマンスを理解する手助けに供給されるベクトル長さああ、そしてプロセッサ目標.
1.5 有効性
インテル AVX10 バージョン1の wiH が早いソフトウェア可動化とサポート、下位グループ、のために紹介されるのああインテル AVX – 512命令セットインテル AVX10 に順方向互換性がある花こう岩急流とコードネームを付けられたPコアを持っている未来のインテル Xeon プロセッサとして利用可能である. このバージョン wiH は埋め込みの四捨五入することをサポートしている新しい256ビットのベクトルインストラクションを含みません、あるいは新しいインストラクションと wiH のいずれもインテル AVX – 512からインテル AVX10 まで移行ベースバージョンの役をします。
インテル AVX10 バージョン2の wiH が weH として埋め込みの四捨五入することをサポートしている256ビットのインストラクションフォームを新しいアルデータタイプをカバーしている新しいインテル AVX10 インストラクションのセットと変換、データの動き最適化とスタンダードサポートに含めます。 ああ wiH が限定された相違で128、256、と512ビットのベクトル長さで支えられるという新しい指示。 ああインテル AVX10 バージョンが wiH に新しいバージョン対応列挙スキームを実行します。
インテルR AVX10.2
(前もって可能にしている)インテルR AVX – 512 lntel R AVX10.1
インテルR AVX lntel R AVX2
128/256 – NDS (andAVX128)が改善したビットFP16記録が MASKMOV の暗黙の非同盟の Float16 128/256ビットのFP FMA を混合します、256ビットの int PERMD は128/256/512ビットのFP / Int を集めます
32のベクトル記録
8つのマスク記録
512ビットの深く埋まっている四捨五入すること
埋め込まれた放送
スカラー / SSE / AVX 「昇進」
土着のメディアの付加
HPC 付加
超自然的な支持
ギャザー / 点在
旗ベースの列挙
インテルR Xeon Pコアのみ
オプションの512ビットのFP / Int
128/256ビットのFP / Int
32のベクトル記録
8つのマスク記録
512ビットの深く埋まっている四捨五入すること
埋め込まれた放送
スカラー / SSE / AVX 「昇進」
土着のメディアの付加
HPC 付加
超自然的な支持
ギャザー / 点在
バージョンベースの列挙
インテルR Xeon Pコアのみ
新しいデータの動き、が変わります、そして指示をタイプしてください
オプションの512ビットのFP / Int
128/256ビットのFP / Int
32のベクトル記録
8つのマスク記録
256/512 – ビットが四捨五入することを埋め込みました
埋め込まれた放送
スカラー / SSE / AVX 「昇進」
土着のメディアの付加
HPC 付加
超自然的な支持
ギャザー / 点在
バージョンベースの列挙
P核、E‐核の上に支えられます
図1-2。 インテルR ISA 家族と特徴
1.6 結論
インテル AVX10 が効率が良いベクトルをサポートすることへの大きな転換未来のインテルプロセッサ全体に渡る ISA を代表します。
それはデベロッパーに横切って高性能を達成する一つのコードパスを保守することを許す特徴サポートを調べているオーバーヘッドの最小限でああインテルプラットホーム. インテル AVX10 ISA wHI の未来の発展が最適にサーバーとクライアント両方のプロダクトをサポートする豊かな、フレキシブルな、そして一貫した環境を提供し続けます。
書類数:356368-001合衆国、修正1.0