カテゴリー: データサイエンス、関連

ロジスティック回帰

4月 6, 2024

データサイエンス、関連, ＩＴ関連
ロジスティック回帰
https://ja.wikipedia.org/wiki/%E3%83%AD%E3%82%B8%E3%82%B9%E3%83%86%E3%82%A3%E3%83%83%E3%82%AF%E5%9B%9E%E5%B8%B0

『出典: フリー百科事典『ウィキペディア（Wikipedia）』

統計学
回帰分析
モデル
```
線形回帰 単回帰（英語版） 多項式回帰 一般線形モデル

一般化線形モデル 離散選択（英語版） ロジスティック回帰 多項ロジット（英語版） 混合ロジット（英語版） プロビット（英語版） 多項プロビット（英語版） 順序ロジット（英語版） 順序プロビット（英語版） ポアソン（英語版）

多水準モデル（英語版） 固定効果（英語版） 変量効果 混合モデル

非線形回帰 ノンパラメトリック（英語版） セミパラメトリック（英語版） ロバスト（英語版） 分位点（英語版） 等調（英語版） 主成分（英語版） 最小角度（英語版） 局所 折れ線（英語版）

変数誤差（英語版）
```
推定
```
最小二乗法 線形（英語版） 非線形

普通（英語版） 加重（英語版） 一般化（英語版）

部分 総最小二乗法（英語版） 非負（英語版） リッジ回帰 正則化（英語版）

最小絶対偏差（英語版） 繰返し加重（英語版） ベイズ（英語版） ベイズ多変量（英語版）
```
背景
```
回帰検証（英語版） 平均応答と予測応答（英語版） 誤差と残差 適合度（英語版） スチューデント化残差 ガウス＝マルコフの定理

表話編歴
```
ロジスティック回帰（ロジスティックかいき、英: Logistic regression）は、ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。

連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。

1958年にデイヴィッド・コックス（英語版）が発表した[1]。

確率の回帰であり、統計学の分類に主に使われる。医学や社会科学でもよく使われる[要出典]。

モデルは同じく1958年に発表された単純パーセプトロンと等価であるが、scikit-learnなどでは、パラメータを決める最適化問題で確率的勾配降下法を使用する物をパーセプトロンと呼び、座標降下法や準ニュートン法などを使用する物をロジスティック回帰と呼んでいる。

概要

ロジスティック回帰モデルは以下のような形式である。x が入力で、pが確率（出力）、αとβがパラメータ。

logit ⁡ ( p i ) = ln ⁡ ( p i 1 − p i ) = α + β 1 x 1 , i + ⋯ + β k x k , i , {\displaystyle \operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)=\alpha +\beta {1}x{1,i}+\cdots +\beta {k}x{k,i},}
i = 1 , … , n , {\displaystyle i=1,\dots ,n,\,!}

ここで、n 個のユニットと共変動 X があり、以下のような関係にある。

p i = E ( Y | X i ) = Pr ( Y i = 1 ) . {\displaystyle p_{i}=E(Y|X_{i})=\Pr(Y_{i}=1).\,!}

結果のオッズ（1から確率を引いたもので確率を割った値）の対数は、説明変数 Xi の線形関数としてモデル化される。これを次のようにも表せる。

p i = Pr ( Y i = 1 | X ) = 1 1 + e − ( α + β 1 x 1 , i + ⋯ + β k x k , i ) {\displaystyle p_{i}=\Pr(Y_{i}=1|X)={\frac {1}{1+e^{-(\alpha +\beta {1}x{1,i}+\cdots +\beta {k}x{k,i})}}}}

単純パーセプトロンの記法を使うと上記の式は以下のようにも表現できる。 ς 1 {\displaystyle \varsigma _{1}} は標準シグモイド関数。

p i = ς 1 ( α + β 1 x 1 , i + ⋯ + β k x k , i ) {\displaystyle p_{i}=\varsigma {1}(\alpha +\beta {1}x_{1,i}+\cdots +\beta {k}x{k,i})}

パラメータの推定はオッズ比に重大な影響がある。性別のような2値の説明変数の場合、 e β {\displaystyle e^{\beta }} は例えば男性と女性の結果のオッズ比の推定である。推定には最尤法を使うことが多い。

このモデルの拡張として多分割（polytomous）ロジスティック回帰がある。複数カテゴリの従属変数や順序のある従属変数を扱う。ロジスティック回帰による階層分けを多項ロジットモデルと呼ぶ。

応用

社会科学分野での典型的な応用として、企業の過去のデータをもとに信用リスクを推定するという用法がある。

2値ロジスティック回帰はダイレクトマーケティングでよく使われ、ある提案に反応する人々を特定するのに使われる（従属変数は「反応する=1」と「反応しない=0」である）。
ダイレクトマーケティングの2値ロジスティック回帰モデルは「リフトチャート」を使って評価される。これは、過去のメールへの反応のデータとモデルによる予測結果を比較する。

例

ロジスティック回帰モデルは一般化線形モデルの一種である。p(x) が、予測値変数 x について成功の確率を表すとすると、次のように表される。

p ( x ) = e B 0 + B 1 x 1 + e B 0 + B 1 x . {\displaystyle p(x)={\frac {e^{B_{0}+B_{1}x}}{1+e^{B_{0}+B_{1}x}}}.}

代数的操作を施すと次のようになる。

p ( x ) 1 − p ( x ) = e B 0 + B 1 x , {\displaystyle {\frac {p(x)}{1-p(x)}}=e^{B_{0}+B_{1}x},}

ここで、 p ( x ) 1 − p ( x ) {\displaystyle {\frac {p(x)}{1-p(x)}}} は成功のオッズである。ここで、例えば p(50) が 2/3 となる場合であるとして計算してみると

p ( 50 ) 1 − p ( 50 ) = 2 3 1 − 2 3 = 2. {\displaystyle {\frac {p(50)}{1-p(50)}}={\frac {\frac {2}{3}}{1-{\frac {2}{3}}}}=2.}

したがって、x = 50 のとき、成功の可能性は失敗の2倍（オッズが 2 対 1 ）である。

脚注
[脚注の使い方]
```
^ Cox, DR (1958). “The regression analysis of binary sequences (with discussion)”. J Roy Stat Soc B 20: 215–242.
```
参考文献

出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。（2018年12月）
```
Agresti, Alan, Categorical Data Analysis, 2nd ed., New York: Wiley-Interscience, 2002, ISBN 0-471-36093-7.
Amemiya, T., Advanced Econometrics, Harvard University Press, 1985, ISBN 0-674-00560-0.
Balakrishnan, N., Handbook of the Logistic Distribution, Marcel Dekker Inc., 1991, ISBN 0824785878.
Green, William H., Econometric Analysis, fifth edition, Prentice Hall, 2003, ISBN 0-13-066189-9.
Hosmer, David W. and Stanley Lemeshow, Applied Logistic Regression, 2nd ed., New York; Chichester, Wiley, 2000, ISBN 0-471-35632-8.
```
関連項目
```
ニューラルネットワーク
データマイニング
判別分析
パーセプトロン
線形分類器
```
外部リンク
```
Web-based logistic regression calculator
「ロジスティック回帰分析」入門 鳥居稔（大阪大学）

表話編歴
```
統計学
典拠管理データベースウィキデータを編集
カテゴリ:
```
ロジスティック回帰統計学的分類計量経済学最適化統計検定数学に関する記事

最終更新 2022年12月21日 (水) 02:37 （日時は個人設定で未設定ならばUTC）。
テキストはクリエイティブ・コモンズ 表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。
```
』
重回帰分析

4月 6, 2024

データサイエンス、関連, ＩＴ関連
重回帰分析
https://ja.wikipedia.org/wiki/%E9%87%8D%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

『出典: フリー百科事典『ウィキペディア（Wikipedia）』

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索?: “重回帰分析” – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL（2016年2月）

重回帰分析（じゅうかいきぶんせき）は、多変量解析の一つ。

回帰分析において独立変数が2つ以上（2次元以上）のもの。

独立変数が1つのものを単回帰分析という。

一般的によく使われている最小二乗法、一般化線形モデルの重回帰は、数学的には線形分析の一種であり、分散分析などと数学的に類似している。

適切な変数を複数選択することで、計算しやすく誤差の少ない予測式を作ることができる。

重回帰モデルの各説明変数の係数を偏回帰係数という。

目的変数への影響度は偏回帰係数は示さないが標準化偏回帰係数は目的係数への影響度を示す。下記の関係式が知られている。
```
S P R C = P R C × S D E V S D R V {\displaystyle SPRC=PRC\times {\frac {SDEV}{SDRV}}}
変数名     意味
S P R C {\displaystyle SPRC}     標準化偏回帰係数[1]
P R C {\displaystyle PRC}     偏回帰係数[2]
S D E V {\displaystyle SDEV}     説明変数の標準偏差[3]
S D R V {\displaystyle SDRV}     目的変数の標準偏差[4]
```
例

中学生を対象に調査を行いその結果を重回帰分析したところ下の式が得られたとする。
```
t C × 3 + t S J × 5 + 20 = n {\displaystyle t_{C}\times 3+t_{SJ}\times 5+20=n}

変数名     意味

t C {\displaystyle t_{C}}     中学で勉強した時間数

t S J {\displaystyle t_{SJ}}     小学生の時代の塾の学習時間数

n {\displaystyle n}     知っている英単語の数
```
この場合、Aさんが中学で 100 {\displaystyle 100}時間、小学生時代 20 {\displaystyle 20}時間勉強していたら 100 × 3 + 20 × 5 + 20 = 420 {\displaystyle 100\times 3+20\times 5+20=420} 語を知っているという計算になる。

中学で1時間勉強すると平均的には3単語を覚えているという解釈ができる。

ここでは × 3 {\displaystyle \times 3}や × 5 {\displaystyle \times 5}という数値を重回帰分析で計算・算出するが、あくまで平均的な値であり個々のサンプルにおいてその通りに一致するとは限らない。

例えば、Aさんの英単語数は 420 {\displaystyle 420}語ではなく、実際には 450 {\displaystyle 450}語かもしれない。

全体の平均を取ると、3や5という値を取ると全体が最もうまく説明できデータによく適合するということから出てきた数値になる。

また英単語数を決めるのが勉強時間だという関係は、分析者が自分で決めるため絶対的なものではない。

あくまで勉強時間が独立変数（説明変数）だと仮定した上で分析している。そのため、予測を行うことはできてもその方向に因果関係があることは保証されない。

独立変数が二値の場合

性別や民族といった名義尺度データを説明変数に用いたい場合は、ダミー変数を導入して重回帰分析を行うことになる。

日本国内で見かける数量化I類は、実質的にはこれと同じ分析である。

ダミー変数は通常、条件ごとに説明変数を作り 0 {\displaystyle 0}と 1 {\displaystyle 1}を持つデータを設定して、分析する。

その際、重回帰では一つは回帰式に含めない（多重共線性を避けるためである）。

信号の色による車の通過速度の違いを例に取ると、
```
v ¯ = 50 × δ B + 15 × δ Y + 0 {\displaystyle {\overline {v}}=50\times \delta _{B}+15\times \delta _{Y}+0}

変数     意味

v ¯ {\displaystyle {\overline {v}}}     信号機のある交差点を通過する車の平均速度 ( k m / h {\displaystyle km/h})

δ B {\displaystyle \delta _{B}}     信号が青なら 1 {\displaystyle 1}、さもなくば 0 {\displaystyle 0}

δ Y {\displaystyle \delta _{Y}}     信号が黄色なら 1 {\displaystyle 1}、さもなくば 0 {\displaystyle 0}
```
という式が得られうる。

この場合、青でも黄色でもない条件のデータは、赤になり、計算値は定数の0になる。

つまり、赤なら平均速度 0 k m / h {\displaystyle 0km/h}となる。

解釈としては交差点を抜ける車はいないという意味になる。

また、青の場合なら平均速度は 50 k m / h {\displaystyle 50km/h}と推定されたことになる。

男女の体重の予測では、
```
w = 12 × δ m + 50 {\displaystyle w=12\times \delta _{m}+50}

変数     意味

w {\displaystyle w}     体重 ( k g {\displaystyle kg})

δ m {\displaystyle \delta _{m}}     男なら 1 {\displaystyle 1}、さもなくば 0 {\displaystyle 0}
```
という予測式が得られたら、男でない「女」の平均体重は 50 k g {\displaystyle 50kg}と計算される。

男性なら 12 k g {\displaystyle 12kg}多く、 62 k g {\displaystyle 62kg}が平均になるという意味になる。

ちなみにこれは同じデータを男女別に単純平均したものと一致する。

性別、学年など複数の変数を組み合わせて、分析することもできる。
```
w = α × δ m + β × G {\displaystyle w=\alpha \times \delta _{m}+\beta \times G}

変数     意味

w {\displaystyle w}     体重 ( k g {\displaystyle kg})

δ m {\displaystyle \delta _{m}}     男なら 1 {\displaystyle 1}、さもなくば 0 {\displaystyle 0}

G {\displaystyle G}     学年
```
また、「男性で1年生なら 1 {\displaystyle 1}」というように細かく分けてダミー変数を増やして重回帰を行うことも可能ではある。

ただし、説明変数の数が大きく増すので、連関の強いダミー変数同士で多重共線性の問題が生じやすいこと、十分な信頼性を確保するためにはサンプル数がかなり求められることなどを考えると、実用性に乏しい。

多重共線性
「多重共線性」も参照

独立変数（説明変数）を選択する際、マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は強い相関がないという仮定が入っている。

そのため、説明変数同士が関連性の高い場合、一般化線形モデルでは多重共線性と呼ばれる状態になるため、係数が直感に反する値になることがある。

例えば、小学校での定期テスト得点から重回帰で分析する場合、理科の点数を従属変数に、数学と国語とを説明変数にした場合、数学が増えると理科の点数が増え、国語の点数が高ければ理科の点数が減るといった意味の係数が出ることがある。

これは数学と国語との点数の間に強い相関がある（一般に、どちらの成績も学習習慣や知能の影響を強く受ける）ことで起こりうる。

この場合のように説明変数間の相関が高いと係数が不安定になりやすい。

実務的対応としては、一方を除いて分析するのが最も手軽である。

また、数学と国語の平均点と、数学と国語の得点の差というように和と差に数字を加工すると、この2つは相関がたいてい低く、かつ解釈しやすい。

数学と国語の得点の差は、数学の方が高い生徒の方が理科の点数が高い傾向があるというように理解できるためである。

ただし、このような正の相関を持つ変数同士の差得点は元の変数よりも信頼性が落ちるので、サンプル数を増やすなどの対応が求められる。

また、適切な予測力を実質的には持たない変数であっても、説明変数に加えると予測式自体の寄与率（決定係数）R2は上がることが多い。

そのため、単なるR2ではなく、その分を調整した修正R2を参照する、ステップワイズ法（英語版）等で投入する説明変数を取捨選択する、AICを見るなどの対応が求められる。

ソフトウェア

ほぼ全ての統計パッケージで重回帰分析は実行できる。
```
Microsoft Excel
SAS
Stata
SPSS
College Analysis
多変量解析入門

R言語 - 統計解析言語。重回帰分析だけでなく多変量解析ほか多くの統計関数を標準装備したフリーウェア。『モデル式』でモデル記述や当てはめが容易。他アプリケーションのファイル取込やODBC接続対応。FDA公認。CRANなる仕組で世界の膨大なソフトを無償利用可能。可視化機能に優れ、日本語対応。マルチプラットフォーム。Rの基本パッケージ中の回帰、分散分析関数一覧。重回帰分析はlm関数で行えるほか、独自に書かれた関数もある: [1][2]。
```
関連する分析手法
```
回帰分析
分散分析 - 重回帰モデルの有意性の検定に用いられる
数量化I類 - ダミー変数を用いた回帰分析の別名
ロジスティック回帰 - 目的変数は名義尺度、ロジスティック関数に基づく予測
プロビット分析 - 目的変数は名義尺度、正規累積関数に基づく予測
正準相関分析 - 変数群の一方が一変数のみであれば、重回帰分析と同様
パス解析 - 古典的なパス解析は、複雑なモデルについて重回帰分析の繰り返しから個々の係数を推定
共分散構造分析（構造方程式モデリング） - 重回帰モデルに対し、適合度統計量等の算出が可能
```
脚注
```
^ 英: standardised partial regression coefficient
^ 英: partial regression coefficient
^ 英: standard deviation of explanatory variable
^ 英: standard deviation of response variable

表話編歴
```
統計学
カテゴリ:
```
回帰分析数学に関する記事

最終更新 2022年3月27日 (日) 14:50 （日時は個人設定で未設定ならばUTC）。
テキストはクリエイティブ・コモンズ 表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。
```
』

回帰分析

4月 6, 2024

データサイエンス、関連, ＡＩ、関連

回帰分析
https://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

　※　今日は、録画しといた放送大学の「数理・データサイエンス・ＡＩ専門講座（たぶん、第１回）」というものを視聴した。途中からの録画だったが…。

　※　そこで出てきた、気になる「テクニカルターム」を、調べたんで貼っておく…。

『出典: フリー百科事典『ウィキペディア（Wikipedia）』

出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。（2020年2月）
曖昧さ回避この項目では、統計学における回帰について説明しています。その他の用法については「回帰」をご覧ください。
統計学
回帰分析
モデル

線形回帰 単回帰（英語版） 多項式回帰 一般線形モデル

一般化線形モデル 離散選択（英語版） ロジスティック回帰 多項ロジット（英語版） 混合ロジット（英語版） プロビット（英語版） 多項プロビット（英語版） 順序ロジット（英語版） 順序プロビット（英語版） ポアソン（英語版）

多水準モデル（英語版） 固定効果（英語版） 変量効果 混合モデル

非線形回帰 ノンパラメトリック（英語版） セミパラメトリック（英語版） ロバスト（英語版） 分位点（英語版） 等調（英語版） 主成分（英語版） 最小角度（英語版） 局所 折れ線（英語版）

変数誤差（英語版）

推定

最小二乗法 線形（英語版） 非線形

普通（英語版） 加重（英語版） 一般化（英語版）

部分 総最小二乗法（英語版） 非負（英語版） リッジ回帰 正則化（英語版）

最小絶対偏差（英語版） 繰返し加重（英語版） ベイズ（英語版） ベイズ多変量（英語版）

背景

回帰検証（英語版） 平均応答と予測応答（英語版） 誤差と残差 適合度（英語版） スチューデント化残差 ガウス＝マルコフの定理

表話編歴

回帰（、英: regression）とは、統計学において、Y が連続値の時にデータに Y = f(X) というモデル(「定量的な関係の構造[1]」)を当てはめること。

別の言い方では、連続尺度の従属変数（目的変数）Y と独立変数（説明変数）X の間にモデルを当てはめること。X が1次元ならば単回帰、X が2次元以上ならば重回帰と言う。Y が離散の場合は分類と言う。

回帰分析（、英: regression analysis）とは、回帰により分析すること。

回帰で使われる、最も基本的なモデルは Y = A X + B {\displaystyle Y=AX+B} という形式の線形回帰である。

歴史

「回帰」という用語は、英語の「regression」からの翻訳であるが、元々は生物学的現象を表すために19世紀にフランシス・ゴルトンによって造られた。

ゴルトンは、背の高い祖先の子孫の身長が必ずしも遺伝せず、先祖返りのように平均値に戻っていく、すなわち「逆戻り、後戻り（=regression）」する傾向があることを発見した。これを「平均への回帰」という。

ゴルトンはこの事象を分析するために「線形回帰（英: linear regression）」を発明した。

ゴルトンにとって回帰はこの生物学的意味しか持っていなかったが、のちに統計学の基礎となり、「回帰（英: regression）」という用語も統計学へ受け継がれたのである。

概要

回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計する。

従属変数（目的変数）とは、説明したい変数（注目している変数）を指す。

独立変数（説明変数）とは、これを説明するために用いられる変数のことである。

経済学の例を挙げてみると次のようになる。

経済全体の消費（ Y {\displaystyle Y}）を国民所得（ X {\displaystyle X}）で説明する

消費関数が Y = a X + b {\displaystyle Y=aX+b} というモデルで表されるとする。

この例では、消費 Y が従属変数、国民所得 X が独立変数に対応する。

そして a {\displaystyle a}、 b {\displaystyle b} といった係数（パラメータ）を推定する。

最も単純な方法は上式のような一般化線形モデルを用いる線形回帰であるが、その他の非線形モデルを用いる非線形回帰もある。

モデル

線形（一般化線形モデル、一般線形モデルなど）

線形回帰の例

線形回帰
正則化項付き
    リッジ回帰
    ラッソ回帰
    エラスティックネット

非線形

k近傍法
回帰木
ランダムフォレスト
ニューラルネットワーク
サポートベクター回帰
射影追跡回帰
多変量適応的回帰スプライン（英語版）

最小二乗法による推定

詳細は「最小二乗法」を参照

パラメータを推定する代表的な方法として、最小二乗法がある。これは、二乗和誤差を最小化する最尤推定である。

最小二乗法の概要は次の通りである。

初めに回帰式（目的変数を説明変数で計算する式）を設定する。

次に、回帰式の係数を求めるが、「従属変数の測定値と、独立変数の測定値および回帰式を用いて求めた推定値の差の二乗和誤差」が最小になるように求める。

線形モデルの場合、回帰式の係数で推定値の差の2乗平均を微分し0と置いた連立方程式を解いて求められる。

独立変数同士の相関

マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は強い相関がないという仮定が入っている。

そのため、一般化線形モデルで説明変数同士が関連性の高いものを使うと係数が妙な値になることがあるので注意する必要がある（これは多重共線性と呼ばれる）。

例：小学校での定期テスト得点から重回帰で分析する場合に、理科の点数を従属変数に、算数と国語を説明変数にした場合、算数が増えると理科の点数が多く、国語の点数が高ければ理科の点数が減るといった意味の係数が出ることがある。

これは算数と国語の点数に強い相関が両者にあるからである。

この場合は算数と国語の平均点と、算数と国語の得点の差というように和と差に数字を加工すると、この2つは相関が大抵低く、かつ解釈しやすい。

算数と国語の得点の差は、算数の方が高い生徒の方が理科の点数が高い傾向があるというように理解できるからである。

これは、線形モデルの問題であるため、線形モデルが不適切ならば、非線形モデルを使用すればよい。また、共分散構造分析という重回帰より複雑な関係を適切に説明できるモデルもある。

語源

回帰は語源的には回帰効果（平均への回帰）に由来する。回帰効果は相関（直線的な関係）が低い場合に顕著に現れる。しかし回帰分析では必ずしも直線的関係を仮定しない。また「目的変数yを説明変数xに回帰する」といい、「回帰」という言葉が由来とは異なる意味に使われている。

解析ソフト

NAG
IMSL
R言語 - 統計解析言語。回帰分析ほか多くの統計関数を標準装備したフリーウェア。『モデル式』でモデル記述や当てはめが容易。他アプリケーションのファイル取込やODBC接続対応。FDA公認。CRANという仕組みで世界の膨大なソフトを無償利用可能。可視化機能に優れ、日本語対応。マルチプラットフォーム。
Stata
Gretl

脚注

^ 『統計学入門』(東京大学出版会)、257頁

参考文献

『統計学入門』東京大学出版会、1991年。
J. R. Taylor 著、林茂雄、馬場凉（訳） 編『計測における誤差解析入門』東京化学同人、2000年。
蓑谷千凰彦『回帰分析のはなし』東京図書、1985年。

関連項目

統計学
計量経済学
相関係数
傾向推定
曲線あてはめ
アンスコムの例
分散拡大係数
多重共線性

表話編歴

統計学
標本調査

標本 母集団 無作為抽出 層化抽出法

要約統計量
連続確率分布
位置

平均
    算術 幾何 調和 中央値
    分位数 順序統計量 最頻値 階級値

分散

範囲 偏差 偏差値 標準偏差 標準誤差 変動係数 決定係数 相関係数 自己相関 共分散 自己共分散 分散共分散行列 百分率 統計的ばらつき

モーメント

分散 歪度 尖度

カテゴリデータ

頻度 分割表

推計統計学
仮説検定
パラメトリック

t検定 ウェルチのt検定 F検定 Z検定 二項検定 ジャック-ベラ検定 シャピロ–ウィルク検定 分散分析 共分散分析

ノンパラメトリック

ウィルコクソンの符号順位検定 マン・ホイットニーのU検定 カイ二乗検定 イェイツのカイ二乗検定 累積カイ二乗検定 フィッシャーの正確確率検定 尤度比検定 G検定 アンダーソン–ダーリング検定 コルモゴロフ–スミルノフ検定 カイパー検定 マンテル検定 コクラン・マンテル・ヘンツェルの統計量

その他

帰無仮説 対立仮説 有意 棄却

区間推定

信頼区間 予測区間

モデル選択基準

AIC BIC WAIC MDL

その他

偏り 偏りと分散 過剰適合 推定量 点推定 最尤推定 尤度関数 尤度方程式 最小距離推定 メタアナリシス ブートストラップ法

ベイズ統計学
確率

主観確率 ベイズ確率 事前確率 事後確率 最大事後確率

その他

ベイズ推定 ベイズ因子

相関

交絡 ピアソンの積率相関係数 順位相関（スピアマンの順位相関係数 ・ケンドールの順位相関係数 ）

モデル

一般線形モデル 一般化線形モデル 混合モデル 一般化線形混合モデル

回帰
線形

リッジ回帰 ラッソ回帰 エラスティックネット

非線形

k近傍法 決定木 ランダムフォレスト ニューラルネットワーク サポートベクターマシン 射影追跡回帰

時系列

自己回帰モデル 自己回帰移動平均モデル ARCHモデル 対移動平均比率法 トレンド定常 傾向推定 共和分 構造変化

分類
線形

線形判別分析 ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器 単純パーセプトロン 線形サポートベクターマシン

二次

二次判別分析

非線形

k近傍法 決定木 ランダムフォレスト ニューラルネットワーク サポートベクターマシン ベイジアンネットワーク 隠れマルコフモデル

その他

二項分類 多クラス分類 第一種過誤と第二種過誤

教師なし学習
クラスタリング

k平均法 （k-means++法 ） DBSCAN

密度推定（英語版）

カーネル密度推定 （ カーネル ）

その他

主成分分析 独立成分分析 自己組織化写像

統計図表

棒グラフ バイプロット（英語版） 箱ひげ図 管理図 フォレストプロット ヒストグラム 円グラフ Q-Qプロット ランチャート 散布図 幹葉表示 バイオリン図 ドットプロット ヒートマップ 階級区分図

生存分析

生存関数 カプラン＝マイヤー推定量 ログランク検定 故障率 比例ハザードモデル

歴史

統計学の創始者 確率論と統計学の歩み

応用

社会統計学 疫学 生物統計学 系統学 統計力学 計量経済学 機械学習 実験計画法

出版物

統計学に関する学術誌一覧 重要な出版物

全般

統計 頻度主義統計学 統計学および機械学習の評価指標

その他

方向統計学 S言語 R言語 統計検定 社会調査士 JDLA Deep Learning For GENERAL JDLA Deep Learning for ENGINEER 実用数学技能検定 品質管理検定

カテゴリカテゴリ
典拠管理データベース: 国立図書館ウィキデータを編集

フランス BnF data ドイツ イスラエル アメリカ 日本 チェコ

カテゴリ:

統計学計量経済学数学に関する記事分析

最終更新 2023年10月19日 (木) 07:58 （日時は個人設定で未設定ならばUTC）。
テキストはクリエイティブ・コモンズ 表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。

』

ハッシュ関数

12月 19, 2023

コンピューター、関連, デジタル・データ、関連, データサイエンス、関連, ＩＴ関連
ハッシュ関数
https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%83%E3%82%B7%E3%83%A5%E9%96%A2%E6%95%B0

　※　今日は、録画しといた放送大学の「データ構造とプログラミング　第１０回」というものを、視聴した。

　※　その講義の中で、出てきて、ちょっと調べた。

　※　自分の勉強のために、貼っておく。

　※　ついでに、参考になりそうな画像も収集したんで、それも貼っておく。

　※　以下から、wikiに載っていた画像。

『出典: フリー百科事典『ウィキペディア（Wikipedia）』

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索?: “ハッシュ関数” – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL（2018年6月）
曖昧さ回避この項目では、ハッシュ関数について説明しています。プログラミング言語における配列については「連想配列」をご覧ください。
ハッシュ関数で名前と0から15までの整数をマッピングしている。”John Smith” と “Sandra Dee” のハッシュ値が衝突している。

ハッシュ関数 (ハッシュかんすう、英語: hash function) あるいは要約関数[1]とは、任意のデータから、別の（多くの場合は短い固定長の）値を得るための操作、または、その様な値を得るための関数のこと。ハッシュ関数から得られた値のことを要約値やハッシュ値または単にハッシュという。

ハッシュ関数は、主に検索の高速化やデータ比較処理の高速化、さらには改竄の検出に使われる。例えば、データベース内の項目を探したり、大きなファイル内で重複しているレコードや似ているレコードを検出したり、核酸の並びから類似する配列を探したりといった場合に利用できる。

ハッシュ関数は、チェックサム、チェックディジット、フィンガープリント、誤り訂正符号、暗号学的ハッシュ関数などと関係がある。それぞれ用途が異なり、異なった形で設計・最適化されている。
衝突

ハッシュ関数の入力を「キー (key)」と呼ぶ。得られるハッシュ値は、2つ以上のキーから同じ値が得られることがある。これを衝突という。多くの場合、衝突の発生は最小限に抑えるのが望ましい。そのため、ハッシュ値の出現頻度は一様になるように設計しなければならない。
用途
ハッシュテーブル

ハッシュ関数は特にハッシュテーブルで使われ、与えられた検索キー（例えばキーワード）から素早くデータレコード（辞書でのキーワードの定義）を探すのに使われる。ハッシュ関数は検索キーをハッシュにマッピングする。ハッシュをインデックスとして対応するレコードの格納位置が分かる。さらにハッシュテーブルは連想配列や動的集合の実装に使われる。

一般にハッシュ関数は複数の異なるキーを同じインデックスにマッピングする可能性がある。したがって、ハッシュテーブルの各スロットは（明示的か暗黙かはともかく）単一のレコードではなくレコードの集合に対応していることが多い。このため、ハッシュテーブルの各スロットを「バケット (bucket)」、ハッシュ値を「バケットインデックス」とも呼ぶ。

したがって、ハッシュ関数はレコードの位置のヒントでしかない。つまり、探すための出発点を教えるだけである。それでも、半分以上埋まったテーブルで良いハッシュ関数を使えば、検索対象をせいぜい1つか2つのエントリに減らすことができる。
キャッシュ

ハッシュ関数は、低速な記憶媒体に格納された巨大なデータセットのためのキャッシュを構築するのに使うことがある。ハッシュテーブルと似ているが、キャッシュであるため、衝突が発生しても古い方のアイテムを消去するか本来の媒体に書き戻せばよいという特徴がある。
ブルームフィルタ

ハッシュ関数はブルームフィルタの基本的構成要素である。ブルームフィルタはキーが集合に含まれるかどうかを近似的に表すコンパクトなデータ構造である。
重複レコードの検出

巨大なソートされていないファイルから重複したレコードを探す場合、各レコードをハッシュ関数に入力して配列 T のインデックスを得て、各バケット T[i] にハッシュ値が i になった全レコードの番号をリストの形で集める。この配列が完成すると、重複したレコードは必ず同じバケットに存在しているはずである。そこで、リストの要素数が2つ以上のバケット全てについて実際のレコードを求めて比較することで、重複レコードを探すことができる。配列が適切な大きさであれば、この方法が他のどんな方法（ファイルをソートし、隣り合うレコードを比較していく方法など）よりも高速な場合が多い。
類似レコードの探索

ハッシュ関数は、キーが似ているが全く同一ではない場合のレコード検索にも使える。この場合の入力は1つのキーか、似たようなキーを持つ巨大ファイル内の2つのレコードである。このためには、似たようなキーを与えられたとき、最大でも m しか違わないハッシュ値（m は小さい整数で例えば1か2）を生成するハッシュ関数を必要とする。このようなハッシュ関数を使って全レコードに関するハッシュテーブル T を構築すると、似たようなレコードは同じバケットか近いバケットに格納されることになる。すると各バケット T[i] について、-m から m の範囲の k で表されるバケット T[i+k] に格納されているレコード群を相互に比較すればよい。

この応用として声紋アルゴリズムと呼ばれる技法がある。これを使うと音声ファイルの巨大なコレクションから似たようなエントリを探すことができる（MusicBrainzの楽曲ラベリングサービスで使われている）。この場合のハッシュ関数は、ノイズやタイミングの違いや音量の違いといった差異をなるべく無視できるようなものであることが望ましい[2]。
類似部分文字列の探索

同じ技法は巨大な文字列の集まりから同じ部分か類似する部分を見つけ出すのに応用できる。例えば、文書リポジトリや遺伝子データベースなどに応用できる。この場合、入力文字列群を多数の小さな部分に分割し、それらに対してハッシュ関数を適用して上述してきたような技法で同じ部分や類似の部分を探す。

ラビン-カープ文字列検索アルゴリズムは比較的高速な文字列検索アルゴリズムで、平均でO(n)の時間で動作する。このアルゴリズムは文字列の比較にハッシュ関数を使っている。
幾何学的ハッシュ

この原理は、コンピュータグラフィックスや計算幾何学を代表とする様々な分野で、2次元平面や3次元空間でのいわゆる類似性問題を解くのに使われている。例えば、多数の点から最も近い2つの点を探すとか、一連の形状から類似した形状を探すとか、画像データベースから類似する画像を探すなどの用途である。これらの用途では、あらゆる入力は何らかの距離空間にあり、ハッシュ関数はその空間を格子状に分割するものと解釈できる。このときに使用するテーブルは2次元以上の配列であり（グリッドファイルなどと呼ぶ）、ハッシュ関数はその次元数に対応した一連のインデックスを返す。このようなハッシュ技法を幾何学的ハッシュなどと呼ぶ。幾何学的ハッシュは電気通信でのベクトル量子化でも使われており、多次元の信号を符号化し圧縮するために使われている。
改竄の検出

例えば、「ある文書が正確かどうか検証したいが、その文書そのものを記録・比較したくない」場合を考える。ここでもしこの文書を代表する数値（文書の要約）を数学的に作り出すことができれば、この要約だけを記録し、比較すれば良いことになる。このような要約を作る操作がハッシュ化である。

より具体的に、今、ハッシュ関数として、「5字ごとに1字を選択し、その列を並べたものをハッシュ値とする」という操作を選択したとすると、このハッシュ関数によって、元の文書を1/5に短縮することができる。しかしこの方法では、
```
うまく間に適当な文字を入れて、別の文書を作ることが出来る。
推測から元の文書も復元できてしまう事もある。
短い定型的文章では、異なる文書から同じ要約が出来てしまうこともあり得る（衝突、コリジョン）。
1万字の文章では、要約だけで2000文字になる
```
という問題がある。そこで、このようなことが確率論的に現実には起こりにくくなるようなハッシュ関数を工夫をする必要がある。

通常は元データのバイナリ表現を使い、それを複雑に操作し数十～数百ビットのハッシュ値を作る。

改竄の検出を行う場合は、単純なハッシュ関数アルゴリズムを用いると、容易に同じハッシュ値を求めることができるため、安全に設計されたハッシュ関数を用いる必要がある。
パスワードの保護

ハッシュ関数は非可逆変換であるため、ハッシュ値から元の値を容易には復元できないという特徴がある。そのため、認証サーバは、パスワードをハッシュ化して保存することが推奨される。このようにすれば、サーバ内の認証情報を窃取された場合であっても、キーを知られるリスクを減らすことができる。
特性

良いハッシュ関数は、一般に以下のような特性を満たす必要がある。なお、関連する概念（暗号学的ハッシュ関数、チェックサムなど）では要求は異なる。
低コスト

他の手法に比べてハッシュ関数を用いた手法をより有利にするには、ハッシュ関数の計算コストが十分小さくなければならない。例えば、n個の要素のあるソート済みテーブルにある要素を挿入する場合、二分探索では log2 n 回のキーの比較を必要とする。したがって、ハッシュテーブルを使った手法が二分探索よりも効率的であるためには、ハッシュ関数が1つのキーからハッシュ値を計算するコストが log2 n 回のキー比較のコストよりも小さくなければならない。暗号学的ハッシュ関数は、そういう意味では時間がかかりすぎる[要出典]。
決定性

ハッシュを使った手法は決定的でなければならない。つまり、ある入力が与えられたとき、生成するハッシュ値は常に同じでなければならない。言い換えれば、数学的な意味で関数になっていなければならない。したがってハッシュ関数は、時刻などに基づいた擬似乱数のような外部パラメータに依存してはならない。また、ハッシュ対象オブジェクトのメモリアドレスが処理中に変化する可能性があるなら（ガベージコレクションが行われるシステムでは変化する可能性がある）、それもパラメータとして利用することはできないが、時にはアドレス変更と同時にハッシュのやり直しを行うこともある。
一様性

良いハッシュ関数は、考えられる入力範囲が出力範囲全体になるべく一様に分布するようにマッピングを行う。つまり、出力範囲のそれぞれのハッシュ値はほぼ同じ確率で生成されるべきである。このような条件があるのは、異なる入力が同じハッシュ値にマッピングされてしまう「衝突」が発生すると、ハッシュに基づく各種技法のコストは衝突発生回数と共に増大するためである。あるハッシュ値が他のハッシュ値より生成されやすいなら、参照操作で衝突しているエントリ間でどれが探しているエントリかを調べる作業が基本的に大きな部分を占めることになる。

注意しなければならないのは、「一様分布」が必要なのであって「無作為」である必要はないという点である。よい無作為化関数はハッシュ関数にも適していることが多いが、ハッシュ関数が無作為化関数である必要はない。

ハッシュテーブルには可能な入力のうちのごく一部が格納されているということが多い。例えば、ある会の会員名簿には100人ほどの会員の名前が並んでいるが、それはこの世に存在する人名のごく一部である。その場合、一様性はほぼ全ての典型的な部分集合に対して成り立てばよいのであって、全ての可能なエントリ全体の集合に対して成り立たせる必要はない。

言い換えれば、典型的な m 個のレコードの集合を n 個のバケットにマッピングする場合、1つのバケットに対応するレコード数が m/n より大きくなる可能性をなるべく小さくすればよい。特に m が n より小さい場合、一部のバケットだけが1つまたはせいぜい2つのレコードを格納するようにすべきである。理想的な完全ハッシュ関数では、各バケットには最大でも1つのレコードしか格納されない。しかし、n が m よりずっと大きくても、衝突を完全に無くすことはできない（誕生日のパラドックスを参照）。

ハッシュ関数を評価する場合、ハッシュ値の分布の一様性はカイ二乗検定で評価できる[3]。
可変な値域

多くの用途では、プログラムを実行するたびにハッシュ値の範囲は変化するし、場合によっては1回の実行中にも範囲が変化することもある（ハッシュテーブルを拡張する必要が生じた場合など）。そのような場合、ハッシュ関数は2つのパラメータを入力する必要がある。1つは入力データ z で、もう1つは生成可能なハッシュ値の数 n である。

よくある方式は、非常に大きな値域（例えば 0 から 232−1）のハッシュ関数を用意し、その出力を n で割った余りを最終的な出力とする。n が2のべき乗なら、割り算ではなくビットマスクやビットシフトで代替できる。この方式を採用するなら、ハッシュ関数は n がいくつであっても、0 から n−1 の間でハッシュ値が一様に分布するようなものを選択する必要がある。関数によっては、奇数や素数など特定の n でないと余りが一様分布にならないこともある。
データ正規化

用途によっては、入力データに比較目的には不適切な特徴が含まれていることがある。例えば、英語の個人名を参照するとき、大文字と小文字を区別しない方がよい。そのようなデータをハッシュ関数の入力にする場合、データの同値関係基準を考慮すべきであり、同じと見なされる入力には同じハッシュ値を生成すべきである。
連続性

（等しいデータではなく）類似するデータを探索する用途では、ハッシュ関数は可能な限り連続となっているべきである。少しだけ異なる入力に対しては、同じハッシュ値かごく近いハッシュ値を生成すべきである。

なお、連続性はチェックサムや暗号学的ハッシュ関数などにとっては不適切な特性である。ハッシュ関数に連続性が必要となる用途は、線型探索を使うハッシュテーブルなどの用途である。
ハッシュ関数のアルゴリズム

ハッシュ関数の選択は、その用途における入力データの性質や確率分布に大きく左右される。
簡単なハッシュ関数

ハッシュ対象のデータが十分に小さいなら、入力データそのものをハッシュ値として使うこともできる（何らかのバイナリを整数として再解釈する）。このような自明なハッシュ関数（恒等関数）の計算コストは事実上ゼロである。

「十分に小さい」の意味は、ハッシュテーブルに割り当てられるメモリ量に依存する。2008年現在、典型的なPCでは1GB程度のメモリが利用可能で、30ビット程度のハッシュ値なら扱える。ただし、多くの場合そこまで大きなハッシュテーブルは必要としない。例えば、英文の文字列の大文字/小文字の変換をするとき、各文字をバイナリ符号化したものを使い、その文字符号を整数のインデックスとしてテーブルを参照すると対応する変換後の文字符号が得られるようにするという方法が考えられる（例えば、’A’ には ‘a’、’8’ には ‘8’ を返すなど）。それぞれの文字が8ビットで表されていれば（ASCIIまたはISO Latin 1）、テーブルのエントリ数は 28 = 256 個だけとなるし、Unicodeの場合でも 17×216 = 1114112 エントリである。

同じ技法は ‘us’ とか ‘ja’ のような2文字国名コードを実際の国名にマッピングする場合（262=676 エントリ）、アメリカの5桁の郵便番号を地名にマッピングする場合（10万エントリ）などに利用できる。不正なデータ値（例えば国名コードなら ‘xx’、ZIPコードなら 00000）に対応するエントリは未定義とされたり、何らかの ‘null’ 値にマッピングすることになるだろう。
完全ハッシュ関数
4つの人名についての完全ハッシュ関数

ハッシュ関数が単射の場合、すなわち正しい入力に対して必ず異なるハッシュ値が対応する場合、これを完全 (perfect) だという。このような関数を使えば、1つのハッシュテーブルで目的のエントリを直接探すことができ、それ以外の探索の手間が生じない。

完全ハッシュ関数は、入力される範囲が予め分かっていて変化しない場合のみ成立する。例えば英語の月の名前を0から11の整数にマッピングするとか、ある辞書に掲載されている単語にハッシュ値を割り当てるといった場合である。入力の集合を与えられると、それに対応した完全ハッシュ関数を実行する最適化されたサブルーチンを出力する生成器がいくつか存在する（例えば、GNU gperf）。
最小完全ハッシュ関数
4つの人名についての最小完全ハッシュ関数

n 個のキーに対する完全ハッシュ関数が最小 (minimal) であるとは、その値域が n 個の連続な整数（通常 0 から n-1）の場合である。単に参照が単純化されるだけでなく、ハッシュテーブルもコンパクトになり、空きスロットができない。最小完全ハッシュ関数は単なる完全ハッシュ関数よりも求めるのが難しくなる。
一様に分布するデータのハッシュ技法

入力が制限された長さの文字列（例えば、電話番号、自動車のナンバー、送り状番号など）で、個々の入力値は独立にかつ一様な確率で発生する場合、ハッシュ関数は個々のハッシュ値にだいたい同じ個数の入力値をマッピングすればよい。例えば、入力 z が 0 から N−1 の範囲の整数、出力 h が 0 から n−1 の範囲の整数で、N が n より大きいとする。するとハッシュ関数としては、h = z mod n （ z を n で割った余り）、h = (z × n) ÷ N （z を n/N 倍して整数に丸めた値）、などの式が考えられる。
その他の分布のデータのハッシュ技法

入力の出現確率が一様でない場合や、独立性がない場合は、上のような単純な方式ではうまくいかない。例えば、あるスーパーマーケットの利用者は地理的に近い場所に集中しているため、電話番号の先頭数桁は同じになってしまう。その場合、(z × n) ÷ N の式では元の数値の上の桁が残るため、衝突が多発する。一方、z mod n の式では、末尾側の桁が残るため、この場合のハッシュ値の分布はこちらの方がよい。
可変長データのハッシュ技法

データが非常に長い（または可変長の）文字列の場合（人名、URL、電子メールの中身など）、その分布は一様でないことが多く、複雑な依存関係が存在することが多い。例えば、自然言語の文章では文字の分布は全く一様ではないし、文字の並び方にも相関関係があり、その言語に特有の性質を持っている。その場合、ハッシュ関数は文字列内の全文字を何らかの形で使用し、しかもそれぞれの文字を異なった形で使用するのが望ましい。

そのようなデータをハッシュ値に変換する典型的手法は、入力を小さな単位（数ビット、数バイト、数ワードなど）の並び b[1], b[2], …, b[m] に分割し、それを順に以下のように結合していく。

def make_hash(S0, b)
S <- S0 // 状態を初期化
for k in 1..m do // 入力データ単位をスキャン:
S <- F(S, b[k]) // データ単位 k を状態に結合
end
return G(S, n) // 状態からハッシュ値を抽出
end

この手法は、テキストのチェックサムやフィンガープリントのアルゴリズムにも利用されている。状態変数 S は32ビットか64ビットの符号無し整数である。例の場合、S0 は 0 でよいし、G(S,n) は単に S mod n でよい。最適な F の選択は難しい問題で、データの性質にも依存する。データ単位 b[k] が1ビットなら、F(S,b) は例えば次のようになる。

def F(S, b)
return if highbit(S) == 0 then
2 * S + b
else
(2 * S + b) ^ P
end

ここで highbit(S) は S の最上位ビットを意味し、’*’ 演算子は符号無しの整数の乗算でオーバーフローを無視する操作を表す。’^’ はビット単位の排他的論理和演算を表し、P は適当な固定のワードである[4]。
特定用途のハッシュ関数

多くの場合ヒューリスティクスを利用して、汎用のハッシュ関数よりも特定用途で衝突を削減できるハッシュ関数を設計できる。例えば、入力が FILE0000.CHK、FILE0001.CHK、FILE0002.CHK などのファイル名で、多くの場合このような一連の番号が名前に含まれているとする。すると、ファイル名から番号部分 k を抜き出し、k mod n をハッシュ値とすれば、ほぼ最適な結果が得られる。言うまでもないが、特定の入力に最適化したハッシュ関数は、それ以外の分布を示す入力に対しては非常に悪い結果を生じる。
ハッシュとしてのチェックサム関数

チェックサムやフィンガープリント用のアルゴリズムをハッシュ関数として採用することもできる。それらのアルゴリズムの一部は、任意長の文字列データ z から32ビットまたは64ビットのビット列を生成するので、そこから 0 から n-1 のハッシュ値を容易に抽出できる。

この手法は、ハッシュ値の範囲 n がチェックサムやフィンガープリント関数の値域より十分小さい場合に限って、十分一様に分布するハッシュ値を生成する。しかし、一部のチェックサムは雪崩効果が弱いため、用途によっては不向きである。よく使われているCRC32チェックサムは、上位16ビットだけがハッシュ用途に使える。さらに言えば、入力の各ビットはCRC32の1つのビットにのみ影響を与える。したがって、32ビットのチェックサムをそのままハッシュ値に利用する場合は十分な注意が必要である[5]。
暗号学的ハッシュ関数

Secure Hash Algorithmのような暗号学的ハッシュ関数は、チェックサムやフィンガープリントよりも強力な一様性を保証するので、汎用ハッシュ関数としても最適である。

しかし暗号化などの用途以外では、その計算コストが高いため利点が打ち消されてしまう[6]。しかし、悪意ある者がキーを選んでもハッシュ値が一様に分布するという特性がある。このためDoS攻撃からサービスを保護する助けとなる場合もある。
ハッシュ関数の安全性

暗号学的ハッシュ関数の安全性を議論する場合、以下の3種類について議論を行う。
原像計算困難性

原像計算困難性(Preimage Resistance)とは、与えられたハッシュ値に対して、そのハッシュ値を出力するようなハッシュ関数への入力を求めることが困難であるような性質を言う。ただし、異なる入力から同じハッシュ値が得られるため、そのハッシュ値を得られる入力を1つ求めればよい。
第2原像計算困難性

第2原像計算困難性(Second Preimage Resistance)とは、与えられた入力値に対して、その入力値をハッシュ関数へ入力したときのハッシュ値と同じハッシュ値を出力する入力値を求めることが困難であるような性質を言う。
衝突困難性

衝突困難性(Collision Resistance)とは、同じハッシュ値を与える2つの入力値を求めることが困難であるような性質を言うのである。
それぞれの困難性の関係

ハッシュ関数に衝突が多い場合、原像計算困難性を満たさないハッシュ関数では、任意の入力値からハッシュ値を得られるため、第2原像計算困難性を満たさない。また、第2原像計算困難性を満たさないハッシュ関数では、衝突困難性を満たさない。すなわち、
```
原像計算困難 ⊃ 第2原像計算困難 ⊃ 衝突困難
```
である。
語源

“hash” という用語は、本来の「切り刻んで混ぜる」という意味からの類推で使われるようになった。実際、合同操作を行う典型的なハッシュ関数は、入力の定義域を多数の部分に「切り刻み」、キーの分布が値域で一様になるように「混ぜた」形で出力する。

ドナルド・クヌースによれば、この用語を最初に使ったのはIBMの Hans Peter Luhn で、1953年1月の社内メモで使っていた。そして、Robert Morris が学会誌 Communications of the ACM に掲載した論文でこの用語を使い、単なるジャーゴンから正式な専門用語に昇格した[7]。
脚注・出典
```
^ https://kotobank.jp/word/要約関数-653412
^ "Robust Audio Hashing for Content Identification" by Jaap Haitsma, Ton Kalker and Job Oostveen
^ Bret Mulvey, Hash Functions. Accessed April 11, 2009
^ A. Z. Broder. Some applications of Rabin's fingerprinting method. In Sequences II: Methods in Communications, Security, and Computer Science, pages 143--152. Springer-Verlag, 1993
^ Bret Mulvey, Evaluation of CRC32 for Hash Tables, in Hash Functions. Accessed April 10, 2009.
^ Bret Mulvey, Evaluation of SHA-1 for Hash Tables, in Hash Functions. Accessed April 10, 2009.
^ Knuth, Donald (1973). The Art of Computer Programming, volume 3, Sorting and Searching. pp. 506–542
```
関連項目
ウィクショナリーにハッシュ関数の項目があります。
```
ブルームフィルタ
ハッシュテーブル - 分散ハッシュテーブル
HMAC
ラビン-カープ文字列検索アルゴリズム
暗号理論
暗号学的ハッシュ関数
HAVAL（英語版）
剰余
連想配列
一方向性関数
衝突 (計算機科学)
オープンアドレス法（英語版）（クローズドハッシュ法）
```
外部リンク
解説
```
Hash Functions and Block Ciphers by Bob Jenkins
Integer Hash Function by Thomas Wang
The Goulburn Hashing Function - ウェイバックマシン（2009年3月19日アーカイブ分） (PDF) by Mayur Patel
Hash Functions by Paul Hsieh
```
実装
```
GNU gperf
General purpose hash function algorithms (C/C++/Pascal/Java/Python/Ruby)
The Murmur Hash Function by Austin Appleby
HSH 11/13 by Herbert Glarner
FNV Fowler, Noll, Vo Hash Function
qDecoder's C/C++ hash functions — オープンソースのライブラリ
```
オンラインハッシュ生成
```
Hash Generator オンラインのハッシュ生成器 (md2,md4,md5,sha1,tiger,snefru,ripemd,whirlpool,haval...)
Ajax-based Hash Generator オンラインのハッシュ生成器。文字入力の度にハッシュ値を計算する。
hashr オンラインのハッシュ生成器。40以上のハッシュアルゴリズムを選択できる。

表話編歴
```
データ構造
その他
```
コレクション コンテナ 代数的データ型 素集合データ構造 永続データ構造 並行データ構造
```
配列構造
```
配列 可変長配列 ビット配列 接尾辞配列 スタック キュー 両端キュー リングバッファ 疎行列
```
リンク構造
```
連結リスト スキップリスト 展開リスト XOR連結リスト 優先度付きキュー
```
検索構造
```
連想配列
    ハッシュテーブル ハッシュ配列木 ハッシュ関数 コンシステントハッシュ法 分散ハッシュテーブル 連想リスト
```
木構造
二分木
```
二分探索木 二重連鎖木 デカルト木 トップ木 T木
```
平衡二分木
```
AA木 AVL木 赤黒木 スプレー木 スケープゴート木 ツリープ 2-3木 2-3-4木 フィンガーツリー
```
B木
```
B+木 B*木 Bx木 UB木 ダンス木 H木 X木 M木
```
トライ木
```
基数木 接尾辞木 三分探索木 Cトライ X-fastトライ Y-fastトライ ハッシュ木
```
BSP木
```
四分木 八分木 インターバル木 レンジ木 セグメント木 カバー木 メトリック木 BK木 kd木 暗黙k-d木 vp木
```
R木
```
R+木 R*木 ヒルベルトR木 優先R木
```
多重木
```
多分木 三分木 スパゲッティスタック フェニック木 リンクカット木 フュージョン木 ヴァンエムデボアス木 指数木 SPQR木 PQ木 (a,b)木
```
ヒープ
```
二分ヒープ 三分ヒープ D分ヒープ 二項ヒープ 2-3ヒープ Beap フィボナッチヒープ 左翼ヒープ ペアリングヒープ 傾斜ヒープ ソフトヒープ ウィークヒープ
```
グラフ構造
```
有向グラフ 有向非巡回グラフ 二分決定グラフ ハイパーグラフ 有向非巡回ワードグラフ
```
抽象データ型
```
リスト キュー スタック セット マップ マルチセット マルチマップ クラス

カテゴリカテゴリ

表話編歴
```
暗号学的ハッシュ関数とメッセージ認証コード
セキュリティ要約（英語版）
一般的関数
```
MD5 SHA-1 SHA-2 SHA-3/Keccak
```
SHA-3最終候補（英語版）
```
BLAKE Grøstl（英語版） JH（英語版） Skein（英語版） Keccak (勝者)
```
その他の関数
```
FSB（英語版） ECOH（英語版） GOST（英語版） HAS-160（英語版） HAVAL（英語版） Kupyna（英語版） LMハッシュ MDC-2（英語版） MD2 MD4 MD6（英語版） N-Hash（英語版） RadioGatún RIPEMD SipHash（英語版） Snefru（英語版） Streebog（英語版） SWIFFT（英語版） Tiger（英語版） VSH（英語版） WHIRLPOOL crypt(3)（英語版） (DES)
```
MACアルゴリズム
```
DAA（英語版） CBC-MAC HMAC OMAC（英語版）/CMAC PMAC（英語版） VMAC（英語版） UMAC（英語版） Poly1305
```
認証付き暗号モード
```
CCM CWC（英語版） EAX（英語版） GCM IAPM（英語版） OCB（英語版）
```
攻撃
```
衝突攻撃（英語版） 原像攻撃 誕生日攻撃 総当たり攻撃 レインボーテーブル サイドチャネル攻撃 伸長攻撃（英語版） 差分解読法
```
設計
```
アバランシェ効果（英語版） ハッシュ衝突 Merkle–Damgård構成法（英語版）
```
標準化
```
CRYPTREC NESSIE NISTハッシュ関数コンベンション（英語版）
```
利用
```
ソルト キーストレッチ（英語版） メッセージ認証（英語版）
```
パスワードハッシュ関数
```
bcrypt PBKDF2 scrypt Argon2

カテゴリ カテゴリ：ハッシュ関数・メッセージ認証コード・認証付き暗号

表話編歴
```
暗号
```
暗号史 暗号解読 Cryptography portal en:Outline of cryptography

共通鍵暗号 ブロック暗号 ストリーム暗号 暗号利用モード 公開鍵暗号 暗号学的ハッシュ関数 メッセージ認証コード 認証付き暗号 乱数生成器 ステガノグラフィー
```
カテゴリカテゴリ
カテゴリ:
```
ハッシュ関数検索アルゴリズム誤り検出訂正

最終更新 2023年8月3日 (木) 17:44 （日時は個人設定で未設定ならばUTC）。
テキストはクリエイティブ・コモンズ 表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。』
```
ケンブリッジ・アナリティカ

10月 14, 2023

データサイエンス、関連, 米国、関連, 精神・心理の操作、関連, 精神活動, ＡＩ、関連, ＩＴ関連, 世界情勢
ケンブリッジ・アナリティカ
https://ja.wikipedia.org/wiki/%E3%82%B1%E3%83%B3%E3%83%96%E3%83%AA%E3%83%83%E3%82%B8%E3%83%BB%E3%82%A2%E3%83%8A%E3%83%AA%E3%83%86%E3%82%A3%E3%82%AB

『出典: フリー百科事典『ウィキペディア（Wikipedia）』

ケンブリッジ・アナリティカ[1]
Cambridge Analytica本社所在地イギリスの旗イギリスロンドン[1]
55 New Oxford Street
設立 2013年[1]

代表者アレクサンダー・ニックス
支店舗数ワシントンD.C.、ニューヨーク、ブラジル、マレーシア[1]
外部リンク https://cambridgeanalytica.org/
テンプレートを表示

ケンブリッジ・アナリティカ（英語: Cambridge Analytica Ltd : CA ）は、かつて存在したデータマイニングとデータ分析を手法とする選挙コンサルティング会社である。

事務所は米国とイギリスに置いていた。スティーブン・バノンは、かつて役員会のメンバーであった。

2016年6月に実施されたイギリスの欧州連合離脱是非を問う国民投票や、2016年11月に実施されたアメリカ合衆国大統領選挙において、いずれも勝者側が利用した選挙コンサルティング会社として注目された。

しかし一方で効果を疑問視する声があり、さらにデータ収集や広告の手法についてプライバシーや情報操作の懸念も指摘されている[要出典]。

フェイスブックの個人情報流出問題で情報の不正取得が疑われていたが、2018年5月2日、関連会社とともに破産手続きを申請したことを発表し、同日付で全ての業務を停止した。
同社は声明で「この数カ月、数多くの根拠のない批判の的にされてきた」と不正を改めて否定したが、問題が報じられて以降顧客離れが止まらず、事業継続が困難になったという[2]。

批判

2016年アメリカ合衆国大統領選挙でのロシアの介入への調査

2017年5月18日、タイム・マガジンは合衆国議会がロシアゲートに関連してケンブリッジ・アナリティカを調べていることを報じた[3]。ケンブリッジ・アナリティカが自身の持つマイクロターゲッティング処理能力を使ってロシアのプロパガンダ流布を調整したかもしれない、としている[3]。

ドナルド・トランプの大統領選挙活動のデジタル戦略のチーフであったブラッド・パースケール氏が下院情報問題常設特別調査委員会の任意の証言に応じ、証言した。

証言によれば「（トランプ大統領戦について）ロシアの関与には全く気づかなかった」とし、戦略で使った手法については「アメリカの企業が毎日のように使っているデジタルマーケティング戦略を採用した」、と証言した。

また同氏はケンブリッジ・アナリティカはトランプのデジタル遊説活動においてフェイスブック、グーグルそれとツイッターから提供された優秀なデジタルマーケティング活動の専門家スタッフたちと協同して働き、自身の立ち上げたブランディング会社のチーム・共和党全国委員会とともに選挙で勝利を収めた。」とも証言した[4]。

2017年8月4日、マイケル・フリンは、2016年のトランプの選挙運動期間にケンブリッジ・アナリティカとの協定においてアドバイサー役を果たしたことを反映するように公的財務報告を修正した。

なお同氏はロシア人の当局者との接触の嫌疑により米国の対情報機関によって調査中である[5][6]。

影響についての評価

アメリカの政治学者の多くは、ケンブリッジ・アナリティカが「マイクロターゲッティング (microtargetting)」と呼称する手法の投票者に対する効果について、非常に懐疑的である。

この手法「マイクロターゲッティング」においては、特定のグループに分類された人々の行動や興味・関心、意見等をデータ解析によって予見し、そこから彼らにとって最も効果的な反応を引き出すメッセージが発信される[7][8][9]。

これに対して政治学者たちは、このようなデジタルデータへのアクセスによって得られる結果は、公表されている投票者のデータから抽出される情報以上に有意味的なものではなく、また特に投票者の意向が移り変わってゆく場合に、限定的な価値しか持たないと反論する[8]。

従って、個人の類型を基にして政治的な価値観を推測するのは困難であり、こういった個人の類型を基に投票者に送信されるメッセージは、得てして標的を誤ることになりがちであるという[8]。

ダートマス大学のブレンダン・ナイアン教授(政治学)の議論によれば、多くの有権者は既にある政党や候補者の固定的な支持者である以上、その意向を変えるというのはきわめて困難である。

結果的には、ただ単に固定的な支持層を結集するほうがはるかに容易であるとする[10][8]。

選挙運動におけるマイクロターゲッティングに関する著書があるタフツ大学のアイタン・ハーシュ准教授(政治学)は、「サイコグラフィックス(psychographics)等の(ケンブリッジ・アナリティカによる、あるいはケンブリッジ・アナリティカについての)あらゆる主張は、たわごとに過ぎない」と、このような手法やその効果に対する強い疑念を顕わにしている[11]。

2017年にケンブリッジ・アナリティカは、2.2億人の合衆国の心理的プロファイルは5000の分かれたデータ・セットに基づいていたことを主張した[12]。

2017年3月にはニューヨーク・タイムズはケンブリッジ・アナリティカが自身の能力を誇張したと報じ、「ケンブリッジ・アナリティカの幹部は現在、同社がトランプの選挙運動において決してサイコ‐グラフィックス[訳注 1]を使用したことは一度もないと認めている。」とも報じた[13]。

トランプの支持者らもまた運動での「たいしたことのない」そして会社の影響がなんらのサイコグラフィックスを含まないことはないものとして描く、ケンブリッジ・アナリティカの役割を議論した[13]。

ニュー・ヨーク・タイムズはケンブリッジ・アナリティカのサイコグラフィック・モデルがテッド・クルーズの支持者のように識別するのを失敗した後にクルーズの大統領選挙の運動がそれを使うことを止めたことも報じた[13]。

アメリカ大統領選挙やイギリスEU離脱国民投票などへの広がるデータ会社の心理作戦によって決定されたことが議論された。

それはまな板のの水のように流れ易い投票有権者による二つの選挙でのこのような技術が可能性としてある疑いを越える。

3つの州の80,000の投票によって大統領選の運動は選挙人の大学の教職員や学生に勝利し、2パーセントのイギリスの投票者たちによってEUの国民投票は決定した[12]。

プライバシーに関わる問題

利用者の精巧な人格モデルを作成するために周知や許可なしに収集した個人情報を利用することは倫理的問題、プライバシー上の問題（英語版）を引き起こす[14]。

ケンブリッジ・アナリティカは合衆国で事業運営されているが、より厳格なプライバシー法（英語版）をもったヨーロッパであればその運営は違法となる可能性が高い[15]。

クルーズは政府からの個人情報の保護について積極的に発言しているがケンブリッジ・アナリティカのデータベースで彼は「政治的投票者の監視者」と表現されている[15]。

フェイスブック利用者に対するケンブリッジ・アナリティカの振る舞いに関して、ケンブリッジ・アナリティカの広報の一人は、利用者はプロバイダによるサインアップ時に許可を与えているとしているが、一方でフェイスブックは「人々に誤解をさせること、情報の悪用」はフェイスブックの規約に違反すると明言している。

2015年、フェイスブックはこの問題について調査中であるとした[14]。

2018年3月にフェイスブックが発表したところによると不適切な方法で収集されたフェイスブック利用者のデータをStrategic Communication Laboratoriesのアカウントが削除することに失敗した疑いがある[16]。

アレクサンダー・ニックスが、関心のある問題についてのメッセージを受けとれるのだからデータの集積とマイクロターゲッティングは投票者の利益になると指摘する一方、デジタル権保護の活動家たちは個人が「（それに）ついて闇の中におかれ」、コントロールできない間にプライベートな情報が収集、蓄積、共有されることを懸念している[17]。

人々は自ら納得づくかそれとも操られているのか

「フィルターバブル」も参照

確信の証拠の提示と対象の操作の事柄による納得させる事項から受け入れる思考へこれを横切るものとして組織についての関心が持ち上がる[18]。

それは組織的な行動（英：organizational behavior）について研究する社会学者のマイケル・カジンスキー（英：Michal Kosinski）によって取り上げられた。

彼は以前はケンブリッジ大学の心理学部の研究者であって2017年に「納得している人々と彼らの操作との関連は乏しい」と宣言したときスタンフォード大学経営大学院の組織的な行動の助教授だった[18]。

関連項目
```
カタリスト (企業)（英：Catalist）[訳注 2]
サイバス・アナリティックス（英語版）（英：Civis Analytics）[訳注 2]
データ・ドレッジング（英語版）（英：data dredging）
ダン・ワグナー (データ科学者)（英語版）（英：Dan Wagner）
ザ・グランドウォーク（英語版）（英：The Groundwork）[訳注 2]
ハーパー・リード（英語版）（英：Harper Reed）
群集行動（英語版）
ミハエル・スラビー（英語版）（英：Michael Slaby）
ORCA (コンピューター・システム)（英語版）
ハウディニ計画（英語版）（英：Project Houdini）
ナワル計画（英語版）（英：Project Narwhal）
予報的分析（英語版）
サイコグラフィック
右翼
ニューヨーク大都市圏のハイテク企業（英語版）
```
脚注
[脚注の使い方]
```
^ a b c d “ケンブリッジ・アナリティカとは”. 日本経済新聞 (2018年3月21日). 2018年3月21日閲覧。
^ “英選挙コンサルが破産＝ＦＢ情報不正入手の疑い”. 時事通信. (2018年5月3日) 2018年5月3日閲覧。[リンク切れ]“"ＦＢ個人情報流出　不正疑惑の英企業が全業務停止　破産申請へ　米大統領選と英国民投票に利用？"”. 産経新聞社. (2018年5月3日) 2019年7月8日閲覧。
^ a b Calabresi, Massimo (2017年5月19日). “Inside Russia's Social Media War on America”. 2017年8月8日閲覧。
^ “Trump campaign's digital director agrees to meet with House Intel Committee”. ポリティコ (2017年7月14日). 2017年8月8日閲覧。
^ https://www.wsj.com/articles/u-s-eyes-michael-flynns-links-to-russia-1485134942
^ https://www.nytimes.com/aponline/2017/08/04/us/politics/ap-ustrump-russia-probe-flynn.html
^ Mayer, Jane (2017年3月17日). “The Reclusive Hedge-Fund Tycoon Behind the Trump Presidency”. The New Yorker. ISSN 0028-792X 2018年3月20日閲覧。
^ a b c d “Cambridge Analytica's Facebook data abuse shouldn't get credit for Trump”. The Verge 2018年3月20日閲覧。
^ Trump, Kris-Stella (2018年3月23日). “Analysis | Four and a half reasons not to worry that Cambridge Analytica skewed the 2016 election” (英語). Washington Post. ISSN 0190-8286 2018年3月23日閲覧。
^ Nyhan, Brendan (2018年2月13日). “Fake News and Bots May Be Worrisome, but Their Political Power Is Overblown”. The New York Times. ISSN 0362-4331 2018年3月20日閲覧。
^ “Cambridge Analytica Was Doing Marketing, Not Black Magic”. Reason. (2018年3月19日) 2018年3月19日閲覧。
^ a b Fovind Krishnan V. (June 3,2017). “Aahaar in the head of psies Big Data, global surveillance state and the identity project”. Fountain Ink Magazine 2017年8月27日閲覧。
^ a b c Confessore, Nicholas; Hakin, Danny (2017年3月6日). “Data Firm Says 'Secret Sauce' Aided Trump; Many Scoff”. The New York Times. ISSN 0362-4331 2017年3月7日閲覧。
^ a b Davies, H (2015年12月11日). “Ted Cruz using firm that harvested data on millions of unwitting Facebook users”. Guardian 2016年2月7日閲覧。
^ a b Michael Biesecker, Julie Bykowicz (2016年2月11日). “Cruz app data collection helps campaign read minds of voters”. Associated Press 2016年2月13日閲覧。
^ Dwoskin, Elizabeth (2018年3月16日). “Facebook bans Trump campaign's data analytics firm for taking user data”. The Washington Post. "Facebook said it was suspending the accounts of Strategic Communication Laboratories, the parent company of Cambridge Analytica, as well as the accounts of a University of Cambridge psychologist Aleksandr Kogan, and Christopher Wylie of Eunoia Technologies, Inc. Cambridge Analytica, a firm specializing in using online data to create voter personality profiles in order to target them with messages, ran data operations for Trump's presidential campaign."
^ “Trump Campaign Pays Millions to Overseas Big Data Firm”. NBC News (November 4,2016). November 5,2016閲覧。
^ a b Mayer, Jane (March 27, 2017). “The Reclusive Hedge-Fund Tycoon Behind the Trump Presidency: How Robert Mercer exploited America's populist insurgency”. The New yorker., Reporter at Large
```
訳注
```
^ 消費者を心理的属性をもとに説明するための手法のこと。
^ a b c いずれも企業名を表す固有名詞。英語版では今のところ簡単な説明だけの記事が多い。
```
外部リンク
```
公式ウェブサイト
「本当にトランプ大統領誕生に貢献したの？『ケンブリッジ・アナリティカ』の真実|BuzzFeed Newsを読み解く」勝つ！政治家.com,2017年3月7日
「英国離脱とトランプ当選。世界をひっくり返したビッグデータ会社を畏怖せよ」GIZMODO,2017年2月13日
```
スタブアイコン

この項目は、企業に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（ウィキプロジェクト経済）。
カテゴリ:
```
2013年設立の企業2018年廃止の企業アルゴリズム制イギリスの欧州連合離脱経営破綻した企業選挙コンサルタント選挙運動技術調査会社データ管理データ分析データマイニングトランザクション処理ビッグデータ分散コンピューティング問題ロンドンの企業かつて存在したイギリスの企業

最終更新 2023年4月26日 (水) 02:23 （日時は個人設定で未設定ならばUTC）。
テキストはクリエイティブ・コモンズ 表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。』
```
トランプ大統領を生んだ「ケンブリッジ・アナリティカ事件」とはなにか？

10月 14, 2023

データサイエンス、関連, 米国、関連, 精神・心理の操作、関連, 精神活動, ＡＩ、関連, ＩＴ関連, 世界情勢

トランプ大統領を生んだ「ケンブリッジ・アナリティカ事件」とはなにか？
https://www.tachibana-akira.com/

　※　そう言えば、そういう事件もあったな…。

『2016年は現代史に長く記憶される2つの大きな政治的事件が起きた。

いうまでもなく、イギリスの国民投票でのEU離脱（ブレグジット）とアメリカのトランプ大統領誕生だ。

選挙コンサルティング会社であるケンブリッジ・アナリティカは違法に収集した有権者の個人データを使って両者の選挙結果を操り、「（リベラルにとっての）災厄」をもたらした悪の元凶としてはげしく非難され、この「データゲート事件」によって2018年に会社は消滅した。』

『本書の原題は“Targeted: The Cambridge Analytica Whistleblower’s Inside Story of How Big Data, Trump, and Facebook Broke Democracy and How It Can Happen Again”（『ターゲットにされて　ケンブリッジ・アナリティカ内部告発者のインサイドストーリー。ビッグデータ、トランプ、フェイスブックはどのように民主政を破壊し、それはどのようにもういちど起きるか』）。Targetedとは、自分がターゲットにされたことと、ケンブリッジ・アナリティカが有権者をターゲットに選挙結果を操作していることをかけているのだろう。』
コロナ禍で必須のマーケツール、増加したジャンルは？

9月 15, 2020

コロナの日本経済への影響, コロナ後の日本の情勢、関連, データ解析、関連, 仕事、ビジネス、関連

https://www.itmedia.co.jp/business/articles/2009/15/news059.html

『デジタルマーケティングの支援を行うアンダーワークス（東京都港区）は9月15日、国内の主要マーケティングテクノロジーを分類してまとめた「マーケティングテクノロジーカオスマップ JAPAN 2020」を公開した。コロナ禍を受けて、マーケティングや営業の手法が対面からオンラインに急速にシフトしてきており、関連のサービスが大きく伸びた。

国内で利用できる1234種類のマーケティングテクノロジーを、16分野に分けてまとめたカオスマップ
　今回のカオスマップでは、国内で利用できる1234種類のマーケティングテクノロジーを、16分野に分けて掲載。数は昨年の931種類から33％増加した。

　「2020年のマーケティングテクノロジーのキーワードは、3つの“O”だ」と、アンダーワークスの田島学代表は解説。データの統合と可視化、分析を行う「オーケストレーション」、リアルタイムの「ワン・トゥ・ワン最適化」、オムニチャネルの概念を一歩進めオンラインが主でオフラインがサブという「オンライン・マージズ・オフライン」を挙げた。

　背景にはコロナの影響がある。「営業がオンラインから始まり、イベントもオンラインになってきている。マーケティングはプレセールスという感覚だったが、既存顧客との接点をオンラインで管理して、LTV（生涯顧客価値）を伸ばすためのテクノロジーが非常に増えている」（田島氏）

データの加工、分析。そしてABM関連が増加
　数が大きく増加したのは、下記の領域のテクノロジーだった。

・データ整形やクレンジングを行う「ETL」：56％増
・B2Bで外部からデータを購入する「企業データ」：57％増
・「チャットボット／チャットシステム」：47％増
・データを可視化、分析する「BI／ダッシュボード」：39％増
・Webサイトを分析する「アクセス解析」：39％増
・「オンライン商談」：25％増

　B2B企業がデータマーケティングに取り組むことが増えてきており、外部から企業情報などのデータを購入することが増えてきたと田島氏。「ABM（アカウントベースドマーケティング）をプラットフォームとして行えるテクノロジーは限られているが、来年は増えてくるだろう」

　またアクセス解析領域では、グーグルの「Google Analytics」とアドビの「Adobe Analytics」が大きなシェアを持つが、「汎用的なツールではなく、ニッチな機能を持つツールが増えてきている」（田島氏）。

データ管理領域の動向
成熟してきたMA
　一方で、増加が一段落し成熟が進んできた分野もある。顧客管理や分析、メール配信などを自動化するマーケティングオートメーション（MA）分野は、10％の減少となった。「5年前はバズワードだったが、減ってきていて、成長市場から成熟市場へ変わってきている」（田島氏）

　また、自社以外の企業が集めたユーザーデータを使った「3rd Party DMP」は、個人情報の取り扱いに関する懸念などから数が減った。一方で、「プライバシー」関連のテクノロジーは20％増加している。「GDPRやカリフォルニア州消費者プライバシー法（CCPA）、改正個人情報保護があり、個人情報の取り扱いに関心が増えている」（田島氏）』
まずは数理的思考を身に付けよ！

5月 21, 2020

データサイエンス、関連, ＡＩ、関連

まずは数理的思考を身に付けよ！全大学が「ＡＩ教育」を競い合う時代に
https://newswitch.jp/p/22307

※　こういう人が、書いている記事だ…。

『ビジネスや行政などの意思決定の根拠となるデータを、数理的な思考でとらえて人工知能（ＡＩ）で分析する―。そんな数理、データサイエンス（ＤＳ）、ＡＩの人材育成が急ピッチで進む。政府の「ＡＩ戦略２０１９」では初級レベルは全大学生に必須とされ、認定教育プログラム制度が進みだした。文部科学省のモデル構築事業も拠点６大学から協力校へと展開中だ。これらの教育に関わらずに済む大学は皆無、そんな時代に入っている。（取材＝編集委員・山本佳世子）』
『政府が１９年にまとめたＡＩ戦略でイメージするのは、組織の活動やＩｏＴ（モノのインターネット）で得られるビッグデータ（大量データ）を、統計学やＡＩで分析して活用する人材だ。企業や官公庁、地域社会などあらゆる分野の課題解決でニーズが急増している。内閣府は象徴的な言葉としてＡＩを出しているが、教育テーマとしては論理的考え方やデータに基づく分析など広義のものだという。

同戦略では２５年の目標を掲げ、大学生は学部によらず「全員が初級のリテラシー（読解記述力）レベルを学ぶ」とする。大規模な取り組みとなるため「数理・データサイエンス・ＡＩ教育プログラム認定制度」で後押しする。応用基礎レベルの整備は１年先に予定しているが、まず今年３月にリテラシーレベルを２本立てで整えた。

このうち「認定教育プログラム」は「全学での開講」「複数の専門分野の学生の履修」「履修の学生数や率を高める計画」などの要件を満たせば書類審査で済む。ただ申請プログラムで１年以上の活動実績が必要だ。「データサイエンス学部の実績を基に、全学展開を図る大学」などが対象と予想される。』
『もう一つ、一段上となるのが「認定教育プログラム＋（プラス）」だ。他大学を先導する独自のプログラムで、認定には実地調査もある。「全学生の半数以上が履修しているか、３年以内に実現する計画」という部分のハードルが高い。内閣府の佐藤文一審議官は「旧帝大や研究型大学には、より先進的な取り組みで『プログラム＋』にチャレンジしてほしい」と強調する。どこが先陣を切るのか、視線が集まることは間違いない。』
『文部科学省は１７年度から、大学が文系理系を問わず全学的な数理・ＤＳ教育を後押しする事業を進めている。２０年度は国立大学の運営費交付金の一部の１０億円をこれに充てる。事業開始時は「数理・ＤＳ教育」としており、前面になかったＡＩも、今は内閣府の戦略と相まって扱う。

拠点校は北海道、東京、滋賀、京都、大阪、九州の６国立大学だ。数学、統計、情報など各大学の強みを出しながら、他大学の参考になる標準カリキュラムの策定に向けて、学内での実施に取り組む。』
『九州大学数理・データサイエンス教育研究センターは最初に、高年次学生・大学院生向け講座に取り組んだ。受講生の卒業・修士研究用のデータ解析プログラムを実装し、個別指導をしつつ理論の学びに誘導した。理論から実装に進む通常の積み上げ式とは、逆の学びにしたのが注目だ。

次いで低年次学生向け講座では、看護学や文学など意外な分野も含めた先輩の実例を紹介。その上で学科別に必要なデータ解析法の原理を解説し、学生のやる気を引き出した。

専門が多岐にわたる教員・研究者６０人程度が参加する合宿勉強会もユニークだ。共同研究費を用意し、例えば数学、情報、病院の研究者が、病院内の治療方針や医薬品選定を合理的に決める手法の開発に取り組む。内田誠一センター長は「データ分析を串にして、考えられなかったつながりが生まれている」と効果を実感している。』
『一方、北海道大学の場合は「学部、修士、博士の各課程を想定した文科省のＤＳの３事業すべてで採択されている」（数理・データサイエンス教育研究センターの湧田雄基特任准教授）のが強みだ。またデータを持つ企業と北大の産学共同研究を基に、社会人教育を展開する特色もある。』
『１９年度には６拠点大学に加えて計２０の国立大を協力校に据え、さらに公私立大へも広げていく計画だ。他大学での実施には、新型コロナウイルス対応で導入が進んだオンライン授業と演習の組み合わせや、指導役の教員を育成するファカルティー・デベロップメント（ＦＤ）も重要だ。伝統と異なるさまざまな手法で浸透を図ることになりそうだ。』
『内閣府の総合科学技術・イノベーション会議（ＣＳＴＩ）などで議論してきたＡＩ戦略のうち人材育成は、２５年時点で実施する人数を示している。最も下の小中学生は情報通信技術（ＩＣＴ）の端末を１人１台で扱う。年間、つまり１学年の全高校生約１００万人で理数（理科と数学）の素養を強化する。右図のピラミッド構造で底辺を支える大学などの全学生約５０万人は、数理・ＤＳ・ＡＩの初級レベルを学ぶ。学部１、２年生が対象だ。ここまでがリテラシーレベルだ。』
『この上の応用基礎レベルは「各専門分野×ＡＩ」の教育だ。専門の学びをする学部３、４年生の半分、約２５万人を想定する。目を引くのは理工系人材は半分程度にすぎず、保健系や人文・社会科学系での育成も重視されている点だ。ダブルメジャーとして「専門は経営学とＤＳ」などと言えるだけの力を付け、実社会での活躍を最も期待される層だ。

その上のエキスパートレベルは大学院生などで、２０００人とぐっと数が減る。研究者やその卵としてＤＳ・ＡＩを活用する。最上位のトップレベルは世界と戦うＡＩ先端研究者などで、１００人としている。』
『データ分析は多くの数値データから普遍的な真理を導くのが狙いだ。伝統的には統計学を使い、心理学や教育学の調査研究でも行われる。統計学は数学の仲間だ。世の中の現象を１次式で近似する多変量解析には、数学の線形代数が使われる。過去のまとめに適するが、変化の激しい未来の予測手法としては微妙なところだった。

一方、ＡＩは多様なツールがあり、未来予測に適する面がある。その一つ、人気のディープラーニング（深層学習）は画像判断や機械翻訳、囲碁などで、その強さが一般社会でも実感されたことで注目が高まっている。

日刊工業新聞2020年5月18日』

社会人のためのデータサイエンス入門｜総務省統計局
https://gacco.org/stat-japan/

※　総務省でも、「無料のオンライン学習」をやってるぞ…。

※　むろん、「有料オンライン学習」の講座も、あまたある…。

データサイエンティストのスクール比較・おすすめ講座・コース7選
https://www.bigdata-navi.com/aidrops/1809/

データサイエンス独学の書籍、オンライン講座、ブログ50選
https://www.finereport.com/jp/analysis/site/

※　にわかにＡＩにスポットライトがあたり、どの企業でも「ＡＩの活用を図れ！」とか、「ＡＩ使って、何かやれ！」とかいう号令が下されるようになった…。しかし、如何せん、そういう「ＡＩが何であるのか」「ＡＩで何かやれる」という「ＡＩ人材」なんか、どこにもいない…。いても、数が少なくて、「需要に供給が追いつかない」…。「ＡＩ人材」どころか、そもそも「データサイエンス」を分かっている人材（ＤＳ人材）すら、数が少ない…。そういうのが、現状だ…。

※　それで、「このままでは、日本企業は、生き残っていけない！」ということで、強力に「政府の尻を叩きにかかった」わけだな…。

※　そういうことで、オレも気にはかけて、若干の資料や画像の収集は、やっていた…。今、フォルダを見ると、どこのサイトからキャプチャしたのかの「データ」までは、保存していなかった…。

※　まあ、いいや…。貼ってしまおう…。出所は、よく分からん…、ネットのどっかに転がっていた…、ということで…。

※　何か新しい分野にチャレンジしてみようと考える時は、
１、文献（紙の書籍、電子データの書籍）で、ざっと感じを掴む。
　導入本、初級本、中級本、上級本とあるので、まず「導入本」を２、３冊読んでみる。中には、「マンガで解説する○○」みたいなものもある…。
２、無料の「お試しオンライン学習」を、やってみる…。
３、大体の感じが把握できたら、いよいよ「有料オンライン学習」に取りかかる…。
　という段取りで取り組むのが、いいんじゃないか…。
　まあ、オレはいつも１で止まっているが…。それも、「導入本」２、３冊読んで「オシマイ」というのが多いな…。
　ネットは、玉石混交だ…。中には、「金取り」「詐欺まがい」も混じっている…。そういうものも、回避していかないとな…。

Udemyで400コース学んだ黒澤さんがおススメするデータサイエンスコース10選＋α
https://zine.qiita.com/products/udemy-datascience/
『──具体的な事例ですごくイメージが沸きました。次に伺いたいのですが、黒澤さん自身、これまで学ばれてきて、データサイエンスにはそもそもどんな知識・スキルが必要だと考えていますか︖また、あわせてそのスキル習得に効果的だったUdemyコースも教えてください。

黒澤：データサイエンスに必要なスキルは大きく3つと考えています。

１）数学（微分、線形代数、統計など）
２）プログラミング（Python、R）
３）問題解決力（価値創造する力、論理的思考力など）

まず数学についてですが、僕の経験上からもこれがデータサイエンスの学習においては最も重要だと考えています。

というのも、自分自身、Udemyでデータサイエンスを学び始めたころ、数学を学ばなかったことで失敗しているからです。』
『──そうだったのですね。それはどんな失敗だったのですか？
黒澤：正直いうと、もともとプログラミングスキルには自信があったので、PythonやRもすぐに使いこなせて、データサイエンスもできるとおごりがありました。
しかし、実際は、Pythonが使えたとしても数学の理解がないとただチュートリアルを動かすだけしかできません。

僕は、データサイエンスを活用した課題解決において重要な「数値予測」か、「カテゴリー予測」かの判断が数学（統計）の知識がなくてできなかったんです。

例えば、手書き文字の画像認識をしたい場合は「カテゴリー予測」を使う。商品の売上シミュレーションをしたい場合は、「数値予測」を使うなど課題に応じて判断しなくてはいけないのですが、それができなかったんです。

数学を学ばずに、機械学習ライブラリを使った⾼度な分析を実⾏しても理解が浅く、チュートリアル以上の事をしようとすると途端に難しくなってしまいました。』
『──エンジニアリング力の素地がある方だからこそ陥ってしまう落とし穴なのかもしれませんね。ただ、「微分・線形代数」については、具体的になぜ必要なのかまだわからないのですが、補足いただけますか？

黒澤：微分や線形代数は、機械学習など関数を使った予測モデルの作成に必要になります。機械学習とは、プログラム（機械）にデータを学習させて、予測させることです。予測するためには、実測値と予測値の誤差を最⼩限にさせていくことが必要で、これを「最適化」と言い、微分を使います。

この「最適化」の計算・演算をするためには、画像やExcelで作られた表データなど、すべてのデータを行列の形で数値化する必要があります。この行列を計算するための手段として線形代数が必要になります。さらに、学習させたモデルの精度を確認するために統計が必要になるんです。』
『──なるほど、よく理解できました。では、黒澤さんも特に重要だという数学を学ぶのにおすすめのUdemyコースはありますか？

黒澤：「【キカガク流】人工知能・機械学習脱ブラックボックス講座 – 初級編 -」と「【ゼロからおさらい】統計学の基礎」がおススメです。

「【キカガク流】人工知能・機械学習脱ブラックボックス講座 – 初級編 -」は、板書のように手書きで順を追って説明してくれ、わかりやすく人工知能の仕組みと機械学習の実装に必要な数学（微分と線形代数）を学ぶことができます。さらに得た知識をもとにPythonを使って簡単な機械学習の実装までを4.5時間で経験できるので入門者にはおススメです。』
『「【ゼロからおさらい】統計学の基礎」は、統計の基礎が学べ、統計基礎の鬼門といえる「仮説検証」を中心に理解することができます。また、「アプリの同時起動数」をテーマに統計を使い、「どれだけのユーザーが同時にアプリを起動してもサーバーが落ちずに耐えられるか？」を予測する演習をエクセルを使って行います。』

　※　後半は、「宣伝くさい」が、重要なことを言っていると思われる…。こういう、「電子計算機」を使って「機械」に仕事をさせようとする場合、「数学」のある程度の理解は不可欠だ…。なぜなら、「電子計算機」は、しょせんは「計算・演算」しかできないからだ…。そういうものに、「人間の望むような仕事」をさせようとすれば、「数式を組んで」「代入する値（データ）」を与え、「計算・演算」させていくしかない…。それには、「数学」のある程度の知識が前提になってくる…。