カテゴリー: デジタル・データ、関連

MicrosoftとOpenAI、DeepSeekのデータ不正利用を調査

1月 29, 2025

デジタル・データ、関連, 米中摩擦, ＡＩ、関連, ＩＴ関連

MicrosoftとOpenAI、DeepSeekのデータ不正利用を調査
https://www.nikkei.com/article/DGXZQOGN293P40Z20C25A1000000/

『2025年1月29日 14:10

脚光を浴びた中国製AIに一転して疑惑の目が向けられ始めた=ロイター

【シリコンバレー=渡辺直樹】中国の生成AI（人工知能）スタートアップ、DeepSeek（ディープシーク）が米オープンAIの製品からデータを不正に入手したかどうかを同社と米マイクロソフトが調査していることが明らかになった。米ブルームバーグ通信が28日報じた。AI政策を担当する米高官も同日、ディープシークによる盗用の可能性を示唆した。

ディープシークは2024年末から25年1月にかけて、オープンAIの「Chat（チャット）GPT」の最新モデルに匹敵する性能を持つ複数の生成AIを短期間で低コストに開発したと公表した。先端技術開発を主導してきた米テクノロジー業界の優位性を揺るがし、大幅な米株安を招いていた。

ブルームバーグによると、マイクロソフトは24年秋、ディープシークに関係するとみられる人物がオープンAIの大規模言語モデルと外部のアプリをつなげる機能を使い、大量のデータを盗み出したのを発見していた。日本経済新聞の取材に対し、マイクロソフトとオープンAIはコメントに応じていない。

ディープシークは高度な生成AIの開発にあたり、誰でも利用可能なオープンソースとして公開されているAIモデルを「先生役」として、その入力と出力のデータを新たなAIモデルの学習に使ったと説明している。こうした手法は混合物から純度の高い成分を抽出する化学のプロセスになぞらえて「蒸留」と呼ばれる。

オープンAIはチャットGPTの基盤となる大規模言語モデルを外部に公開していない。同社のモデルをディープシークが自社の生成AIの開発に利用していたとすれば技術の盗用にあたる恐れがある。オープンAIの製品の利用規約に違反する可能性もある。

中国スタートアップの主張をめぐっては、米政府も疑いの目を向け始めている。トランプ政権でAIと暗号資産を担当する高官で、著名ベンチャー投資家のデービッド・サックス氏は同日、米フォックスニュースのインタビューの中でディープシークがオープンAIのモデルを利用した「かなりの証拠がある」と述べた。

サックス氏は「オープンAIはこれをよく思わないだろう。米国のAI企業は『蒸留』を防ぐ措置をとることになると思う。主要企業が第三者による蒸留を防ぐことができれば、模倣者のモデル（の開発）を遅らせるだろう」と話した。

米ホワイトハウスのカロライン・リービット報道官は28日、国家安全保障会議（NSC）がディープシークのアプリの影響を注視していると述べた。米海軍はセキュリティーリスクがあるとしてディープシークの製品の利用を禁止した。

【関連記事】

・公開技術でAI開発費「10分の1以下」　DeepSeekの衝撃
・DeepSeekのAI「米半導体使えず効率開発」　識者の見方
・DeepSeekにサイバー攻撃、中国メディア｢全て米国から｣
・DeepSeek台頭　米国の対中半導体規制、効果に疑問符も
・DeepSeekは「灰色の白鳥」か　NVIDIA株は急反発　』
中国が急ぐデータ会計　資産計上額は230億円に

12月 16, 2024

デジタル・データ、関連, ＩＴ関連, 中国の戦略, 仕事、ビジネス、関連, 企業会計、関連

中国が急ぐデータ会計　資産計上額は230億円に
https://www.nikkei.com/article/DGXZQOGM29A830Z21C24A1000000/

『2024年12月16日 4:00 [会員限定記事]

「ビッグデータを基に兆レベルのリアルタイム処理能力を持つ2万ノード（結節点）超の計算エンジンを開発する」。中国通信3位の中国聯合網絡通信（チャイナユニコム）は宣言する。原動力は3億4500万人の携帯電話契約者、1億2100万人の固定通信契約者、同社と接続する5億9400万カ所のIoT機器から収集するデータだ。

このデータは貸借対照表（バランスシート）に資産として計上している。2024年9月末で2…

この記事は会員限定です。登録すると続きをお読みいただけます。』
シャープ、堺にKDDIとデータ拠点　NVIDIA先端品調達

6月 3, 2024

デジタル・データ、関連, ネットワーク、関連, ＩＴ関連, 国内、経済、関連, 国内、個別企業、関連, 国内情勢

シャープ、堺にKDDIとデータ拠点　NVIDIA先端品調達
https://www.nikkei.com/article/DGXZQOUC0214F0S4A600C2000000/

『2024年6月3日 2:00

シャープはKDDIと人工知能（AI）向けデータセンター運営に乗り出す。秋に稼働を停止する堺市のテレビ向けパネル工場の跡地を利用する。米エヌビディアの次世代の画像処理半導体（GPU）を搭載したサーバーを調達し、生成AIの基盤となる大規模言語モデルの開発・運用拠点として外部に提供する。

2日、シャープとKDDI、システム受託開発のデータセクションなどがデータセンターを運営する共同出資会社の設立に向け…

この記事は有料会員限定です。登録すると続きをお読みいただけます。』
ビットコインの管理難航、続くハッキング　DMM系流出

6月 1, 2024

サイバー攻撃、関連, デジタル・データ、関連, ハッキング、関連, ＩＴ関連, 国内、経済、関連, 国内、個別企業、関連, 国内情勢, 暗号資産、関連, 世界経済、関連

ビットコインの管理難航、続くハッキング　DMM系流出
https://www.nikkei.com/article/DGXZQOUB31DZ90R30C24A5000000/

『2024年6月1日 5:00

DMM.com（東京・港）グループで暗号資産（仮想通貨）交換業を営むDMMビットコイン（同・中央）が5月31日、482億円相当のビットコインを流出させたと発表した。国内では大手交換業者コインチェックが2018年に流出させた約580億円に次ぐ規模だ。

ハッキングなどによる現物の仮想通貨の流出は世界で後を絶たない。仮想通貨の資産管理は難しく、多額の資金を運用する機関投資家などが管理しやすいビットコイ…

この記事は会員限定です。登録すると続きをお読みいただけます。』
記録媒体の廃棄、ドリルよりも暗号化消去　ルール整備

3月 21, 2024

コンピューター、関連, デジタル・データ、関連, ハード、関連, ＩＴ関連

記録媒体の廃棄、ドリルよりも暗号化消去　ルール整備
https://www.nikkei.com/article/DGXZQOUC063QJ0W4A300C2000000/

『2024年3月21日 5:00

文部科学省は「教育情報セキュリティポリシーに関するガイドライン」を改訂し、新たに「暗号化消去」という用語を追加した。記録媒体を含む情報機器を廃棄する場合やリースの返却をする際にデータを復元できなくする手法だ。

時間がかからず媒体の再利用が可能

従来は記録装置の物理的な破壊やデータ消去ソフトウエアによる上書き消去といった手法を列挙していた。暗号化消去とは、記録媒体にデータを書き込む時点で暗号化して…

この記事は会員限定です。登録すると続きをお読みいただけます。』
ハッシュ関数

12月 19, 2023

コンピューター、関連, デジタル・データ、関連, データサイエンス、関連, ＩＴ関連
ハッシュ関数
https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%83%E3%82%B7%E3%83%A5%E9%96%A2%E6%95%B0

　※　今日は、録画しといた放送大学の「データ構造とプログラミング　第１０回」というものを、視聴した。

　※　その講義の中で、出てきて、ちょっと調べた。

　※　自分の勉強のために、貼っておく。

　※　ついでに、参考になりそうな画像も収集したんで、それも貼っておく。

　※　以下から、wikiに載っていた画像。

『出典: フリー百科事典『ウィキペディア（Wikipedia）』

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索?: “ハッシュ関数” – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL（2018年6月）
曖昧さ回避この項目では、ハッシュ関数について説明しています。プログラミング言語における配列については「連想配列」をご覧ください。
ハッシュ関数で名前と0から15までの整数をマッピングしている。”John Smith” と “Sandra Dee” のハッシュ値が衝突している。

ハッシュ関数 (ハッシュかんすう、英語: hash function) あるいは要約関数[1]とは、任意のデータから、別の（多くの場合は短い固定長の）値を得るための操作、または、その様な値を得るための関数のこと。ハッシュ関数から得られた値のことを要約値やハッシュ値または単にハッシュという。

ハッシュ関数は、主に検索の高速化やデータ比較処理の高速化、さらには改竄の検出に使われる。例えば、データベース内の項目を探したり、大きなファイル内で重複しているレコードや似ているレコードを検出したり、核酸の並びから類似する配列を探したりといった場合に利用できる。

ハッシュ関数は、チェックサム、チェックディジット、フィンガープリント、誤り訂正符号、暗号学的ハッシュ関数などと関係がある。それぞれ用途が異なり、異なった形で設計・最適化されている。
衝突

ハッシュ関数の入力を「キー (key)」と呼ぶ。得られるハッシュ値は、2つ以上のキーから同じ値が得られることがある。これを衝突という。多くの場合、衝突の発生は最小限に抑えるのが望ましい。そのため、ハッシュ値の出現頻度は一様になるように設計しなければならない。
用途
ハッシュテーブル

ハッシュ関数は特にハッシュテーブルで使われ、与えられた検索キー（例えばキーワード）から素早くデータレコード（辞書でのキーワードの定義）を探すのに使われる。ハッシュ関数は検索キーをハッシュにマッピングする。ハッシュをインデックスとして対応するレコードの格納位置が分かる。さらにハッシュテーブルは連想配列や動的集合の実装に使われる。

一般にハッシュ関数は複数の異なるキーを同じインデックスにマッピングする可能性がある。したがって、ハッシュテーブルの各スロットは（明示的か暗黙かはともかく）単一のレコードではなくレコードの集合に対応していることが多い。このため、ハッシュテーブルの各スロットを「バケット (bucket)」、ハッシュ値を「バケットインデックス」とも呼ぶ。

したがって、ハッシュ関数はレコードの位置のヒントでしかない。つまり、探すための出発点を教えるだけである。それでも、半分以上埋まったテーブルで良いハッシュ関数を使えば、検索対象をせいぜい1つか2つのエントリに減らすことができる。
キャッシュ

ハッシュ関数は、低速な記憶媒体に格納された巨大なデータセットのためのキャッシュを構築するのに使うことがある。ハッシュテーブルと似ているが、キャッシュであるため、衝突が発生しても古い方のアイテムを消去するか本来の媒体に書き戻せばよいという特徴がある。
ブルームフィルタ

ハッシュ関数はブルームフィルタの基本的構成要素である。ブルームフィルタはキーが集合に含まれるかどうかを近似的に表すコンパクトなデータ構造である。
重複レコードの検出

巨大なソートされていないファイルから重複したレコードを探す場合、各レコードをハッシュ関数に入力して配列 T のインデックスを得て、各バケット T[i] にハッシュ値が i になった全レコードの番号をリストの形で集める。この配列が完成すると、重複したレコードは必ず同じバケットに存在しているはずである。そこで、リストの要素数が2つ以上のバケット全てについて実際のレコードを求めて比較することで、重複レコードを探すことができる。配列が適切な大きさであれば、この方法が他のどんな方法（ファイルをソートし、隣り合うレコードを比較していく方法など）よりも高速な場合が多い。
類似レコードの探索

ハッシュ関数は、キーが似ているが全く同一ではない場合のレコード検索にも使える。この場合の入力は1つのキーか、似たようなキーを持つ巨大ファイル内の2つのレコードである。このためには、似たようなキーを与えられたとき、最大でも m しか違わないハッシュ値（m は小さい整数で例えば1か2）を生成するハッシュ関数を必要とする。このようなハッシュ関数を使って全レコードに関するハッシュテーブル T を構築すると、似たようなレコードは同じバケットか近いバケットに格納されることになる。すると各バケット T[i] について、-m から m の範囲の k で表されるバケット T[i+k] に格納されているレコード群を相互に比較すればよい。

この応用として声紋アルゴリズムと呼ばれる技法がある。これを使うと音声ファイルの巨大なコレクションから似たようなエントリを探すことができる（MusicBrainzの楽曲ラベリングサービスで使われている）。この場合のハッシュ関数は、ノイズやタイミングの違いや音量の違いといった差異をなるべく無視できるようなものであることが望ましい[2]。
類似部分文字列の探索

同じ技法は巨大な文字列の集まりから同じ部分か類似する部分を見つけ出すのに応用できる。例えば、文書リポジトリや遺伝子データベースなどに応用できる。この場合、入力文字列群を多数の小さな部分に分割し、それらに対してハッシュ関数を適用して上述してきたような技法で同じ部分や類似の部分を探す。

ラビン-カープ文字列検索アルゴリズムは比較的高速な文字列検索アルゴリズムで、平均でO(n)の時間で動作する。このアルゴリズムは文字列の比較にハッシュ関数を使っている。
幾何学的ハッシュ

この原理は、コンピュータグラフィックスや計算幾何学を代表とする様々な分野で、2次元平面や3次元空間でのいわゆる類似性問題を解くのに使われている。例えば、多数の点から最も近い2つの点を探すとか、一連の形状から類似した形状を探すとか、画像データベースから類似する画像を探すなどの用途である。これらの用途では、あらゆる入力は何らかの距離空間にあり、ハッシュ関数はその空間を格子状に分割するものと解釈できる。このときに使用するテーブルは2次元以上の配列であり（グリッドファイルなどと呼ぶ）、ハッシュ関数はその次元数に対応した一連のインデックスを返す。このようなハッシュ技法を幾何学的ハッシュなどと呼ぶ。幾何学的ハッシュは電気通信でのベクトル量子化でも使われており、多次元の信号を符号化し圧縮するために使われている。
改竄の検出

例えば、「ある文書が正確かどうか検証したいが、その文書そのものを記録・比較したくない」場合を考える。ここでもしこの文書を代表する数値（文書の要約）を数学的に作り出すことができれば、この要約だけを記録し、比較すれば良いことになる。このような要約を作る操作がハッシュ化である。

より具体的に、今、ハッシュ関数として、「5字ごとに1字を選択し、その列を並べたものをハッシュ値とする」という操作を選択したとすると、このハッシュ関数によって、元の文書を1/5に短縮することができる。しかしこの方法では、
```
うまく間に適当な文字を入れて、別の文書を作ることが出来る。
推測から元の文書も復元できてしまう事もある。
短い定型的文章では、異なる文書から同じ要約が出来てしまうこともあり得る（衝突、コリジョン）。
1万字の文章では、要約だけで2000文字になる
```
という問題がある。そこで、このようなことが確率論的に現実には起こりにくくなるようなハッシュ関数を工夫をする必要がある。

通常は元データのバイナリ表現を使い、それを複雑に操作し数十～数百ビットのハッシュ値を作る。

改竄の検出を行う場合は、単純なハッシュ関数アルゴリズムを用いると、容易に同じハッシュ値を求めることができるため、安全に設計されたハッシュ関数を用いる必要がある。
パスワードの保護

ハッシュ関数は非可逆変換であるため、ハッシュ値から元の値を容易には復元できないという特徴がある。そのため、認証サーバは、パスワードをハッシュ化して保存することが推奨される。このようにすれば、サーバ内の認証情報を窃取された場合であっても、キーを知られるリスクを減らすことができる。
特性

良いハッシュ関数は、一般に以下のような特性を満たす必要がある。なお、関連する概念（暗号学的ハッシュ関数、チェックサムなど）では要求は異なる。
低コスト

他の手法に比べてハッシュ関数を用いた手法をより有利にするには、ハッシュ関数の計算コストが十分小さくなければならない。例えば、n個の要素のあるソート済みテーブルにある要素を挿入する場合、二分探索では log2 n 回のキーの比較を必要とする。したがって、ハッシュテーブルを使った手法が二分探索よりも効率的であるためには、ハッシュ関数が1つのキーからハッシュ値を計算するコストが log2 n 回のキー比較のコストよりも小さくなければならない。暗号学的ハッシュ関数は、そういう意味では時間がかかりすぎる[要出典]。
決定性

ハッシュを使った手法は決定的でなければならない。つまり、ある入力が与えられたとき、生成するハッシュ値は常に同じでなければならない。言い換えれば、数学的な意味で関数になっていなければならない。したがってハッシュ関数は、時刻などに基づいた擬似乱数のような外部パラメータに依存してはならない。また、ハッシュ対象オブジェクトのメモリアドレスが処理中に変化する可能性があるなら（ガベージコレクションが行われるシステムでは変化する可能性がある）、それもパラメータとして利用することはできないが、時にはアドレス変更と同時にハッシュのやり直しを行うこともある。
一様性

良いハッシュ関数は、考えられる入力範囲が出力範囲全体になるべく一様に分布するようにマッピングを行う。つまり、出力範囲のそれぞれのハッシュ値はほぼ同じ確率で生成されるべきである。このような条件があるのは、異なる入力が同じハッシュ値にマッピングされてしまう「衝突」が発生すると、ハッシュに基づく各種技法のコストは衝突発生回数と共に増大するためである。あるハッシュ値が他のハッシュ値より生成されやすいなら、参照操作で衝突しているエントリ間でどれが探しているエントリかを調べる作業が基本的に大きな部分を占めることになる。

注意しなければならないのは、「一様分布」が必要なのであって「無作為」である必要はないという点である。よい無作為化関数はハッシュ関数にも適していることが多いが、ハッシュ関数が無作為化関数である必要はない。

ハッシュテーブルには可能な入力のうちのごく一部が格納されているということが多い。例えば、ある会の会員名簿には100人ほどの会員の名前が並んでいるが、それはこの世に存在する人名のごく一部である。その場合、一様性はほぼ全ての典型的な部分集合に対して成り立てばよいのであって、全ての可能なエントリ全体の集合に対して成り立たせる必要はない。

言い換えれば、典型的な m 個のレコードの集合を n 個のバケットにマッピングする場合、1つのバケットに対応するレコード数が m/n より大きくなる可能性をなるべく小さくすればよい。特に m が n より小さい場合、一部のバケットだけが1つまたはせいぜい2つのレコードを格納するようにすべきである。理想的な完全ハッシュ関数では、各バケットには最大でも1つのレコードしか格納されない。しかし、n が m よりずっと大きくても、衝突を完全に無くすことはできない（誕生日のパラドックスを参照）。

ハッシュ関数を評価する場合、ハッシュ値の分布の一様性はカイ二乗検定で評価できる[3]。
可変な値域

多くの用途では、プログラムを実行するたびにハッシュ値の範囲は変化するし、場合によっては1回の実行中にも範囲が変化することもある（ハッシュテーブルを拡張する必要が生じた場合など）。そのような場合、ハッシュ関数は2つのパラメータを入力する必要がある。1つは入力データ z で、もう1つは生成可能なハッシュ値の数 n である。

よくある方式は、非常に大きな値域（例えば 0 から 232−1）のハッシュ関数を用意し、その出力を n で割った余りを最終的な出力とする。n が2のべき乗なら、割り算ではなくビットマスクやビットシフトで代替できる。この方式を採用するなら、ハッシュ関数は n がいくつであっても、0 から n−1 の間でハッシュ値が一様に分布するようなものを選択する必要がある。関数によっては、奇数や素数など特定の n でないと余りが一様分布にならないこともある。
データ正規化

用途によっては、入力データに比較目的には不適切な特徴が含まれていることがある。例えば、英語の個人名を参照するとき、大文字と小文字を区別しない方がよい。そのようなデータをハッシュ関数の入力にする場合、データの同値関係基準を考慮すべきであり、同じと見なされる入力には同じハッシュ値を生成すべきである。
連続性

（等しいデータではなく）類似するデータを探索する用途では、ハッシュ関数は可能な限り連続となっているべきである。少しだけ異なる入力に対しては、同じハッシュ値かごく近いハッシュ値を生成すべきである。

なお、連続性はチェックサムや暗号学的ハッシュ関数などにとっては不適切な特性である。ハッシュ関数に連続性が必要となる用途は、線型探索を使うハッシュテーブルなどの用途である。
ハッシュ関数のアルゴリズム

ハッシュ関数の選択は、その用途における入力データの性質や確率分布に大きく左右される。
簡単なハッシュ関数

ハッシュ対象のデータが十分に小さいなら、入力データそのものをハッシュ値として使うこともできる（何らかのバイナリを整数として再解釈する）。このような自明なハッシュ関数（恒等関数）の計算コストは事実上ゼロである。

「十分に小さい」の意味は、ハッシュテーブルに割り当てられるメモリ量に依存する。2008年現在、典型的なPCでは1GB程度のメモリが利用可能で、30ビット程度のハッシュ値なら扱える。ただし、多くの場合そこまで大きなハッシュテーブルは必要としない。例えば、英文の文字列の大文字/小文字の変換をするとき、各文字をバイナリ符号化したものを使い、その文字符号を整数のインデックスとしてテーブルを参照すると対応する変換後の文字符号が得られるようにするという方法が考えられる（例えば、’A’ には ‘a’、’8’ には ‘8’ を返すなど）。それぞれの文字が8ビットで表されていれば（ASCIIまたはISO Latin 1）、テーブルのエントリ数は 28 = 256 個だけとなるし、Unicodeの場合でも 17×216 = 1114112 エントリである。

同じ技法は ‘us’ とか ‘ja’ のような2文字国名コードを実際の国名にマッピングする場合（262=676 エントリ）、アメリカの5桁の郵便番号を地名にマッピングする場合（10万エントリ）などに利用できる。不正なデータ値（例えば国名コードなら ‘xx’、ZIPコードなら 00000）に対応するエントリは未定義とされたり、何らかの ‘null’ 値にマッピングすることになるだろう。
完全ハッシュ関数
4つの人名についての完全ハッシュ関数

ハッシュ関数が単射の場合、すなわち正しい入力に対して必ず異なるハッシュ値が対応する場合、これを完全 (perfect) だという。このような関数を使えば、1つのハッシュテーブルで目的のエントリを直接探すことができ、それ以外の探索の手間が生じない。

完全ハッシュ関数は、入力される範囲が予め分かっていて変化しない場合のみ成立する。例えば英語の月の名前を0から11の整数にマッピングするとか、ある辞書に掲載されている単語にハッシュ値を割り当てるといった場合である。入力の集合を与えられると、それに対応した完全ハッシュ関数を実行する最適化されたサブルーチンを出力する生成器がいくつか存在する（例えば、GNU gperf）。
最小完全ハッシュ関数
4つの人名についての最小完全ハッシュ関数

n 個のキーに対する完全ハッシュ関数が最小 (minimal) であるとは、その値域が n 個の連続な整数（通常 0 から n-1）の場合である。単に参照が単純化されるだけでなく、ハッシュテーブルもコンパクトになり、空きスロットができない。最小完全ハッシュ関数は単なる完全ハッシュ関数よりも求めるのが難しくなる。
一様に分布するデータのハッシュ技法

入力が制限された長さの文字列（例えば、電話番号、自動車のナンバー、送り状番号など）で、個々の入力値は独立にかつ一様な確率で発生する場合、ハッシュ関数は個々のハッシュ値にだいたい同じ個数の入力値をマッピングすればよい。例えば、入力 z が 0 から N−1 の範囲の整数、出力 h が 0 から n−1 の範囲の整数で、N が n より大きいとする。するとハッシュ関数としては、h = z mod n （ z を n で割った余り）、h = (z × n) ÷ N （z を n/N 倍して整数に丸めた値）、などの式が考えられる。
その他の分布のデータのハッシュ技法

入力の出現確率が一様でない場合や、独立性がない場合は、上のような単純な方式ではうまくいかない。例えば、あるスーパーマーケットの利用者は地理的に近い場所に集中しているため、電話番号の先頭数桁は同じになってしまう。その場合、(z × n) ÷ N の式では元の数値の上の桁が残るため、衝突が多発する。一方、z mod n の式では、末尾側の桁が残るため、この場合のハッシュ値の分布はこちらの方がよい。
可変長データのハッシュ技法

データが非常に長い（または可変長の）文字列の場合（人名、URL、電子メールの中身など）、その分布は一様でないことが多く、複雑な依存関係が存在することが多い。例えば、自然言語の文章では文字の分布は全く一様ではないし、文字の並び方にも相関関係があり、その言語に特有の性質を持っている。その場合、ハッシュ関数は文字列内の全文字を何らかの形で使用し、しかもそれぞれの文字を異なった形で使用するのが望ましい。

そのようなデータをハッシュ値に変換する典型的手法は、入力を小さな単位（数ビット、数バイト、数ワードなど）の並び b[1], b[2], …, b[m] に分割し、それを順に以下のように結合していく。

def make_hash(S0, b)
S <- S0 // 状態を初期化
for k in 1..m do // 入力データ単位をスキャン:
S <- F(S, b[k]) // データ単位 k を状態に結合
end
return G(S, n) // 状態からハッシュ値を抽出
end

この手法は、テキストのチェックサムやフィンガープリントのアルゴリズムにも利用されている。状態変数 S は32ビットか64ビットの符号無し整数である。例の場合、S0 は 0 でよいし、G(S,n) は単に S mod n でよい。最適な F の選択は難しい問題で、データの性質にも依存する。データ単位 b[k] が1ビットなら、F(S,b) は例えば次のようになる。

def F(S, b)
return if highbit(S) == 0 then
2 * S + b
else
(2 * S + b) ^ P
end

ここで highbit(S) は S の最上位ビットを意味し、’*’ 演算子は符号無しの整数の乗算でオーバーフローを無視する操作を表す。’^’ はビット単位の排他的論理和演算を表し、P は適当な固定のワードである[4]。
特定用途のハッシュ関数

多くの場合ヒューリスティクスを利用して、汎用のハッシュ関数よりも特定用途で衝突を削減できるハッシュ関数を設計できる。例えば、入力が FILE0000.CHK、FILE0001.CHK、FILE0002.CHK などのファイル名で、多くの場合このような一連の番号が名前に含まれているとする。すると、ファイル名から番号部分 k を抜き出し、k mod n をハッシュ値とすれば、ほぼ最適な結果が得られる。言うまでもないが、特定の入力に最適化したハッシュ関数は、それ以外の分布を示す入力に対しては非常に悪い結果を生じる。
ハッシュとしてのチェックサム関数

チェックサムやフィンガープリント用のアルゴリズムをハッシュ関数として採用することもできる。それらのアルゴリズムの一部は、任意長の文字列データ z から32ビットまたは64ビットのビット列を生成するので、そこから 0 から n-1 のハッシュ値を容易に抽出できる。

この手法は、ハッシュ値の範囲 n がチェックサムやフィンガープリント関数の値域より十分小さい場合に限って、十分一様に分布するハッシュ値を生成する。しかし、一部のチェックサムは雪崩効果が弱いため、用途によっては不向きである。よく使われているCRC32チェックサムは、上位16ビットだけがハッシュ用途に使える。さらに言えば、入力の各ビットはCRC32の1つのビットにのみ影響を与える。したがって、32ビットのチェックサムをそのままハッシュ値に利用する場合は十分な注意が必要である[5]。
暗号学的ハッシュ関数

Secure Hash Algorithmのような暗号学的ハッシュ関数は、チェックサムやフィンガープリントよりも強力な一様性を保証するので、汎用ハッシュ関数としても最適である。

しかし暗号化などの用途以外では、その計算コストが高いため利点が打ち消されてしまう[6]。しかし、悪意ある者がキーを選んでもハッシュ値が一様に分布するという特性がある。このためDoS攻撃からサービスを保護する助けとなる場合もある。
ハッシュ関数の安全性

暗号学的ハッシュ関数の安全性を議論する場合、以下の3種類について議論を行う。
原像計算困難性

原像計算困難性(Preimage Resistance)とは、与えられたハッシュ値に対して、そのハッシュ値を出力するようなハッシュ関数への入力を求めることが困難であるような性質を言う。ただし、異なる入力から同じハッシュ値が得られるため、そのハッシュ値を得られる入力を1つ求めればよい。
第2原像計算困難性

第2原像計算困難性(Second Preimage Resistance)とは、与えられた入力値に対して、その入力値をハッシュ関数へ入力したときのハッシュ値と同じハッシュ値を出力する入力値を求めることが困難であるような性質を言う。
衝突困難性

衝突困難性(Collision Resistance)とは、同じハッシュ値を与える2つの入力値を求めることが困難であるような性質を言うのである。
それぞれの困難性の関係

ハッシュ関数に衝突が多い場合、原像計算困難性を満たさないハッシュ関数では、任意の入力値からハッシュ値を得られるため、第2原像計算困難性を満たさない。また、第2原像計算困難性を満たさないハッシュ関数では、衝突困難性を満たさない。すなわち、
```
原像計算困難 ⊃ 第2原像計算困難 ⊃ 衝突困難
```
である。
語源

“hash” という用語は、本来の「切り刻んで混ぜる」という意味からの類推で使われるようになった。実際、合同操作を行う典型的なハッシュ関数は、入力の定義域を多数の部分に「切り刻み」、キーの分布が値域で一様になるように「混ぜた」形で出力する。

ドナルド・クヌースによれば、この用語を最初に使ったのはIBMの Hans Peter Luhn で、1953年1月の社内メモで使っていた。そして、Robert Morris が学会誌 Communications of the ACM に掲載した論文でこの用語を使い、単なるジャーゴンから正式な専門用語に昇格した[7]。
脚注・出典
```
^ https://kotobank.jp/word/要約関数-653412
^ "Robust Audio Hashing for Content Identification" by Jaap Haitsma, Ton Kalker and Job Oostveen
^ Bret Mulvey, Hash Functions. Accessed April 11, 2009
^ A. Z. Broder. Some applications of Rabin's fingerprinting method. In Sequences II: Methods in Communications, Security, and Computer Science, pages 143--152. Springer-Verlag, 1993
^ Bret Mulvey, Evaluation of CRC32 for Hash Tables, in Hash Functions. Accessed April 10, 2009.
^ Bret Mulvey, Evaluation of SHA-1 for Hash Tables, in Hash Functions. Accessed April 10, 2009.
^ Knuth, Donald (1973). The Art of Computer Programming, volume 3, Sorting and Searching. pp. 506–542
```
関連項目
ウィクショナリーにハッシュ関数の項目があります。
```
ブルームフィルタ
ハッシュテーブル - 分散ハッシュテーブル
HMAC
ラビン-カープ文字列検索アルゴリズム
暗号理論
暗号学的ハッシュ関数
HAVAL（英語版）
剰余
連想配列
一方向性関数
衝突 (計算機科学)
オープンアドレス法（英語版）（クローズドハッシュ法）
```
外部リンク
解説
```
Hash Functions and Block Ciphers by Bob Jenkins
Integer Hash Function by Thomas Wang
The Goulburn Hashing Function - ウェイバックマシン（2009年3月19日アーカイブ分） (PDF) by Mayur Patel
Hash Functions by Paul Hsieh
```
実装
```
GNU gperf
General purpose hash function algorithms (C/C++/Pascal/Java/Python/Ruby)
The Murmur Hash Function by Austin Appleby
HSH 11/13 by Herbert Glarner
FNV Fowler, Noll, Vo Hash Function
qDecoder's C/C++ hash functions — オープンソースのライブラリ
```
オンラインハッシュ生成
```
Hash Generator オンラインのハッシュ生成器 (md2,md4,md5,sha1,tiger,snefru,ripemd,whirlpool,haval...)
Ajax-based Hash Generator オンラインのハッシュ生成器。文字入力の度にハッシュ値を計算する。
hashr オンラインのハッシュ生成器。40以上のハッシュアルゴリズムを選択できる。

表話編歴
```
データ構造
その他
```
コレクション コンテナ 代数的データ型 素集合データ構造 永続データ構造 並行データ構造
```
配列構造
```
配列 可変長配列 ビット配列 接尾辞配列 スタック キュー 両端キュー リングバッファ 疎行列
```
リンク構造
```
連結リスト スキップリスト 展開リスト XOR連結リスト 優先度付きキュー
```
検索構造
```
連想配列
    ハッシュテーブル ハッシュ配列木 ハッシュ関数 コンシステントハッシュ法 分散ハッシュテーブル 連想リスト
```
木構造
二分木
```
二分探索木 二重連鎖木 デカルト木 トップ木 T木
```
平衡二分木
```
AA木 AVL木 赤黒木 スプレー木 スケープゴート木 ツリープ 2-3木 2-3-4木 フィンガーツリー
```
B木
```
B+木 B*木 Bx木 UB木 ダンス木 H木 X木 M木
```
トライ木
```
基数木 接尾辞木 三分探索木 Cトライ X-fastトライ Y-fastトライ ハッシュ木
```
BSP木
```
四分木 八分木 インターバル木 レンジ木 セグメント木 カバー木 メトリック木 BK木 kd木 暗黙k-d木 vp木
```
R木
```
R+木 R*木 ヒルベルトR木 優先R木
```
多重木
```
多分木 三分木 スパゲッティスタック フェニック木 リンクカット木 フュージョン木 ヴァンエムデボアス木 指数木 SPQR木 PQ木 (a,b)木
```
ヒープ
```
二分ヒープ 三分ヒープ D分ヒープ 二項ヒープ 2-3ヒープ Beap フィボナッチヒープ 左翼ヒープ ペアリングヒープ 傾斜ヒープ ソフトヒープ ウィークヒープ
```
グラフ構造
```
有向グラフ 有向非巡回グラフ 二分決定グラフ ハイパーグラフ 有向非巡回ワードグラフ
```
抽象データ型
```
リスト キュー スタック セット マップ マルチセット マルチマップ クラス

カテゴリカテゴリ

表話編歴
```
暗号学的ハッシュ関数とメッセージ認証コード
セキュリティ要約（英語版）
一般的関数
```
MD5 SHA-1 SHA-2 SHA-3/Keccak
```
SHA-3最終候補（英語版）
```
BLAKE Grøstl（英語版） JH（英語版） Skein（英語版） Keccak (勝者)
```
その他の関数
```
FSB（英語版） ECOH（英語版） GOST（英語版） HAS-160（英語版） HAVAL（英語版） Kupyna（英語版） LMハッシュ MDC-2（英語版） MD2 MD4 MD6（英語版） N-Hash（英語版） RadioGatún RIPEMD SipHash（英語版） Snefru（英語版） Streebog（英語版） SWIFFT（英語版） Tiger（英語版） VSH（英語版） WHIRLPOOL crypt(3)（英語版） (DES)
```
MACアルゴリズム
```
DAA（英語版） CBC-MAC HMAC OMAC（英語版）/CMAC PMAC（英語版） VMAC（英語版） UMAC（英語版） Poly1305
```
認証付き暗号モード
```
CCM CWC（英語版） EAX（英語版） GCM IAPM（英語版） OCB（英語版）
```
攻撃
```
衝突攻撃（英語版） 原像攻撃 誕生日攻撃 総当たり攻撃 レインボーテーブル サイドチャネル攻撃 伸長攻撃（英語版） 差分解読法
```
設計
```
アバランシェ効果（英語版） ハッシュ衝突 Merkle–Damgård構成法（英語版）
```
標準化
```
CRYPTREC NESSIE NISTハッシュ関数コンベンション（英語版）
```
利用
```
ソルト キーストレッチ（英語版） メッセージ認証（英語版）
```
パスワードハッシュ関数
```
bcrypt PBKDF2 scrypt Argon2

カテゴリ カテゴリ：ハッシュ関数・メッセージ認証コード・認証付き暗号

表話編歴
```
暗号
```
暗号史 暗号解読 Cryptography portal en:Outline of cryptography

共通鍵暗号 ブロック暗号 ストリーム暗号 暗号利用モード 公開鍵暗号 暗号学的ハッシュ関数 メッセージ認証コード 認証付き暗号 乱数生成器 ステガノグラフィー
```
カテゴリカテゴリ
カテゴリ:
```
ハッシュ関数検索アルゴリズム誤り検出訂正

最終更新 2023年8月3日 (木) 17:44 （日時は個人設定で未設定ならばUTC）。
テキストはクリエイティブ・コモンズ 表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。』
```
モルガンS、中国から技術者200人異動　データ規制対応

7月 20, 2023

デジタル・データ、関連, 米中摩擦, ＩＴ関連, 世界情勢, 中国の戦略

モルガンS、中国から技術者200人異動　データ規制対応
https://www.nikkei.com/article/DGXZQOGN19E2C0Z10C23A7000000/

『【ニューヨーク=伴百江】米大手金融機関モルガン・スタンレーが中国本土で勤務する技術者の3分の1にあたる約200人の技術者を他の地域に異動させている。米ブルームバーグ通信が匿名の関係者の情報として伝えた。中国政府が国内で保存されたデータの移転規制を強化しているのに対応する。

技術者は香港やシンガポールなどに異動しているという。中国本土に残る技術者は数億ドル規模で中国国外と互換性のない独自のデー…

この記事は会員限定です。登録すると続きをお読みいただけます。』

『中国は国内にデータの囲い込みを進めている。2017年以降、「データ（安全管理）3法」といわれる法律を相次ぎ施行し、多様なデータを国外に持ち出すことを厳しく制限し始めた。

中国との対立が激化している米国だけでなく、日本を含む多国籍企業も中国での事業データの国外への移転規制への対応を迫られている。今後、他の金融機関などでも同様の動きが広がる可能性がある。』
ＡＩの国家間戦争は、とっくにスタートしている。

5月 12, 2023

デジタル・データ、関連, ＩＴ関連, 世界情勢

ＡＩの国家間戦争は、とっくにスタートしている。
https://st2019.site/?p=21130

　※　そういう「地味な営為の蓄積」が、「国力」を分けていく…。

　※　「デジタルデータ化した」≒コンピューターで、処理できる…、ということだ…。

『※ＡＩの国家間戦争は、とっくにスタートしている。

そのさい、自国語で書かれた大量の文献を蔵している国は、それをデータベースとしてＡＩにフル活用させることによって、他国・他言語のＡＩに対し、意外な優位に立てるチャンスも生まれる。

とうぜん、それには、書籍・雑誌の内容がひととおり、デジタルデータ化されていなかったなら、文字通り「宝の持ち腐れ」。せっかくの古人の知見も埋もれたまま、永久に自国製ＡＩの強みにはなってくれない。

だから私は、戦前の日本の軍事系史料を摘録してネットの一隅に載せておくという地味な作業を、せめてじぶんのできる社会貢献と思って、何十年も続けてきた。

しかしこれからは、ロボットが読み込んで、ＡＩが要約する時代に、かならずなって行く。』
「テレグラム」は当局によるトラッキングは回避できるソフトとされているのに、なぜ、バレるのか？

2月 9, 2023

デジタル・データ、関連, ネットワーク、関連, ＩＴ関連

「テレグラム」は当局によるトラッキングは回避できるソフトとされているのに、なぜ、バレるのか？
https://st2019.site/?p=20860

『Zeyi Yang 記者による2023-2-8記事「How Telegram groups can be used by police to find protesters」。

　　　昨年から北京では若い世代がストリートに出て、新コロ戒厳令に抗議する「白紙かざしデモ」をゲリラ的に展開している。このよびかけは、チャットアプリの「テレグラム」を使ってなされているのだが、なぜか中共警察は、その企画人をつきとめて逮捕することができている模様である。

　「テレグラム」は当局によるトラッキングは回避できるソフトとされているのに、なぜ、バレるのか？
　記者はその謎に迫るため、電話インタビューを重ねた。

　密議段階ではともかく、じっさいに顔をさらしてストリートに出たら、当局は、その参加者の顔をビデオ撮影できる。人相のビデオがビッグデータとして蓄積されて行けば、時間とともに、誰が常連かを絞り込むことができる。

　「テレグラム」のテキストをスクリーンショットに取って、それを「ＷｅＣｈａｔ」にポストする者が一部居り、それも当局にとっては有力な手がかりになる。

　※「テレグラム」のグループチャットの書き込みは、短時間のうちに次々と自動的に消えて行く仕様なのだが、その機能が、意味なくなるわけ。

　※おそらくその「スクショ作業」をボットにさせる全自動ソフトも当局は実装済みなのだろう。

　とうぜん当局は、テレグラムの中に「潜入捜査官」をふだんから割り込ませようと計る。これは絶対に防ぐことはできない。

　潜入捜査も人海戦術である。フェミニズム運動、ＬＧＢＴＱの権利運動、環境保護運動……すべてに首を突っ込んでおくことが、反政府系街頭集会の事前探知に結びつくので。
　具体的には、テレグラムのチャットの中で、運動幹部に接近し、その運動幹部が内輪で利用している「ウィーチャット」に入れてもらうようにするのである。

　中共の公安には、対外的・全国的なセクションと、国内ローカル割りのセクションがある。後者の公安は、特定市の外の話になるとまったく関心を示さないので、すぐに「怪しい」とバレる。

　中国国内の人々が「テレグラム」が良いと気付きはじめるのは2014～2015年だった。それまでは「ウィーチャット」しかなかった。それは暗号化されないので、警察が裁判の証拠にする。

　テレグラムは今、中共当局によってブロックされている。
　しかし人々は、テレグラムの「使い味」を覚えてしまった。だから類似の他のソフトをいろいろと探しては、暗号チャットアプリとして、使うようになっている。

　しかし大衆運動を組織しようとするのに、部外の新人が気楽にどんどん参入して来られないようでは、困るのである。だから知名度が高くて参入障壁の低い「テレグラム」は良かったのである。

　デジタル通信に詳しくなると、中国にいながらにして「グレートファイアウォール」の外にアクセスすることができるようになる。そうなったら、通信／チャットアプリとしては「Ｓｉｇｎａｌ」や「ＷｈａｔｓＡｐｐ」を選ぶ。

　ただし遺憾ながらほとんどの中国人は「ワッツアップ」とは何か、ぜんぜん知らぬ。そういう段階である。

　「Ｄａｍｕｓ」という新しいＳＮＳプラットフォームが中共内のアップルの「App Store」で売り出されたのだが、わずか５分にして当局はそれを販売禁止（根拠は「サイバーセキュリティ法」）。アップル社は商品を撤去した。』
火曜日に、中共政府が後押しして放映させている政治工作宣伝メディア「ウルフ・ニュース」が、ＡＩでゼロから動画合成した男女のブロードキャスターを登場させた。

2月 9, 2023

ディープフェイク, デジタル・データ、関連, ＡＩ、関連, ＩＴ関連

火曜日に、中共政府が後押しして放映させている政治工作宣伝メディア「ウルフ・ニュース」が、ＡＩでゼロから動画合成した男女のブロードキャスターを登場させた。
https://st2019.site/?p=20860

『ＡＦＰの2023-2-8記事「Deepfake ‘news anchors’ in pro-China footage: research」。
　　　火曜日に、中共政府が後押しして放映させている政治工作宣伝メディア「ウルフ・ニュース」が、ＡＩでゼロから動画合成した男女のブロードキャスターを登場させた。男の「アレックス」の方は白人顔である。

　さっそく米国内の銃暴力について批判展開。

　いよいよ、プロパガンダの世界にも、ＡＩキャラクターが堂々と進出を果たしたのだ。すでに動画はＳＮＳに流れている。

　このたびの２名のＡＩキャラは、ロンドンに拠点があるスタートアップの「Ｓｙｎｔｈｅｓｉａ」社の合成技術を使っているらしいという。

　※たしかにＮＨＫは、辛気臭い外貌のアナウンサーと、気の滅入るような解説者と、出てくる資格のないオッサン顔のディレクター／局プロを、ＴＶ報道番組からは全員退場させ、ＡＩ合成キャラにすげかえた方がよい。

人に対して暗い心象を刻み込む、ああいうのが津々浦々に映像として垂れ流され続けるおかげで、わが国の経済が蒙っている損失は、数兆円になっていると思う。

つまりは画像テロ。』