ベイズの定理

10-4. ベイズの定理

Step1. 基礎編
10. 条件付き確率とベイズの定理

https://bellcurve.jp/statistics/course/6444.html

ベイズの定理
https://ja.wikipedia.org/wiki/%E3%83%99%E3%82%A4%E3%82%BA%E3%81%AE%E5%AE%9A%E7%90%86

『確率論や統計学において、トーマス・ベイズ牧師にちなんで名付けられたベイズの定理(ベイズのていり、英: Bayes’ theorem)、ベイズの法則、ベイズの法則、最近ではベイズ・プライスの定理[1]とは、ある事象に関連する可能性のある条件についての事前の知識に基づいて、その事象の確率を記述するものである[2]。

例えば、健康問題の発生リスクが年齢とともに増加することが知られている場合、ベイズの定理により、ある年齢の個人のリスクを、単にその個人が集団全体の典型的な例であると仮定するよりも、(年齢を条件として)より正確に評価することができる。

ベイズの定理を応用したものに、推計統計学の手法の一つであるベイズ推定がある。

その際、定理に関わる確率は、異なる確率解釈をすることができる。

ベイズ確率の解釈では、定理は確率として表現された信念の度合いが、関連する証拠の入手可能性を考慮して合理的にどのように変化すべきかを表現している。ベイジアン推論は、ベイズ統計学の基本である。』

『定理の説明

ベイズの定理は数学的には次の式で表される[3]:

P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) {\displaystyle P(A\mid B)={\frac {P(B\mid A)\,P(A)}{P(B)}}} {\displaystyle P(A\mid B)={\frac {P(B\mid A)\,P(A)}{P(B)}}}

ここで、 A {\displaystyle A} A そして B {\displaystyle B} B は事象であり、 P ( B ) ≠ 0 {\displaystyle P(B)\neq 0} {\displaystyle P(B)\neq 0} である。

P ( A ∣ B ) {\displaystyle P(A\mid B)} P(A\mid B) は条件付き確率であり、 B {\displaystyle B} B が真であるとき事象 A {\displaystyle A} A が発生する確率である。 B {\displaystyle B} B が与えられたときの A {\displaystyle A} A の事後確率ともいう。

P ( B ∣ A ) {\displaystyle P(B\mid A)} {\displaystyle P(B\mid A)} もまた条件付き確率でもあり、 A {\displaystyle A} A が 真である場合に B {\displaystyle B} B が発生する確率である。また、 P ( B ∣ A ) = L ( A ∣ B ) {\displaystyle P(B\mid A)=L(A\mid B)} {\displaystyle P(B\mid A)=L(A\mid B)} であることから、固定された B {\displaystyle B} B に対する A {\displaystyle A} A の尤度とも解釈できる。

P ( A ) {\displaystyle P(A)} P(A) と P ( B ) {\displaystyle P(B)} {\displaystyle P(B)} は、与えられた条件なしに A {\displaystyle A} A と B {\displaystyle B} B がそれぞれ観測される確率で、周辺確率や事前確率と呼ばれている。

A {\displaystyle A} Aそして B {\displaystyle B} Bは別の事象である必要がある。

ベイズ推定
詳細は「ベイズ推定」を参照

ベイズの定理と組み合わせて確率的推論を行う方法がラプラスによって始められ、現在言うところのベイズ統計学の端緒となった。事象の確率という考え方を採用する特徴がある。

現在は例えば、迷惑メールの発見・分類といった作業のコンピュータを用いた自動化(フィルタリング)等のふるい分けにも利用されている。
概要

事象Bのベイズ確率について、

P(B) = 事象 A が起きる前の、事象 B の確率(事前確率, prior probability)
P(B|A) = 事象 A が起きた後での、事象 B の確率(事後確率,条件付き確率, posterior probability,conditional probability)

とする。

ベイズの定理を使えば、事後確率 P(B|A) は下記に従って計算される。

P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) {\displaystyle P(B\mid A)={\frac {P(A\mid B)\,P(B)}{P(A)}}} {\displaystyle P(B\mid A)={\frac {P(A\mid B)\,P(B)}{P(A)}}}

すなわち、事象Aに関するある結果(データ)が得られたとすると、それを反映し、尤度 P(A|B) の乗算によって、事象 B の確率は事前確率から事後確率へと更新される。なお事象 B の確率の観点からは、P(A) は規格化定数としての意味しかないため、しばしば省略される。つまり事後確率は事前確率と尤度の積に比例する:

P ( B ∣ A ) ∝ P ( A ∣ B ) P ( B ) = P ( A , B ) {\displaystyle P(B\mid A)\propto P(A\mid B)\,P(B)=P(A,B)} {\displaystyle P(B\mid A)\propto P(A\mid B)\,P(B)=P(A,B)}

ベイズ統計学(およびベイズ決定理論)は上記の手続きにその基礎をおき、名前の由来ともなっている[要出典]。

批判

ベイズ統計学では、事象の確率という考え方を採用し、必ずしも頻度には基づかない確率を「確率」として見なす。

またベイズの定理を用い、事前確率及び尤度を仮定した下で事後確率を与える、という相対的なメカニズムを主張している。

したがって事後確率の計算結果の信憑性や有用性は、事前分布と尤度の設定にかかっており、慎重を期すことが必要である。

これはベイズ統計学が、不確実性を含む問題を人によって異なる確率を用いて定式化することを許容する主観確率 (subjective probability) という立場をとっていることによる。

この立場はまだ解析対象となっていない新たな問題へのアプローチを可能にするという利点がある一方で、確率の決め方について客観性に欠けるという批判もある(客観確率)。
応用例

薬物検査

薬物検査の例を表す樹形図。記号U, Ū, +, − はそれぞれ使用者である、非使用者である、陽性である、陰性である事象を表す。

ある薬物の検査が感度99%かつ特異度99%だとしよう——つまり検査によって薬物の使用者のうち99%が陽性となり、非使用者のうち99%が陰性となると仮定する。さらに社会の0.5%が薬物使用者であるとする。無作為に選ばれた個人がこの検査で陽性だったとき、薬物使用者である確率はいくつか?ベイズの定理(と全確率の公式(英語版))から

P ( U ∣ + ) = P ( + ∣ U ) P ( U ) P ( + ) = P ( + ∣ U ) P ( U ) P ( + ∣ U ) P ( U ) + P ( + ∣ U ¯ ) P ( U ¯ ) = 0.99 × 0.005 0.99 × 0.005 + 0.01 × 0.995 ≈ 0.332 {\displaystyle {\begin{aligned}P({\text{U}}\mid {\text{+}})&={\frac {P({\text{+}}\mid {\text{U}})\,P({\text{U}})}{P(+)}}\\&={\frac {P({\text{+}}\mid {\text{U}})\,P({\text{U}})}{P({\text{+}}\mid {\text{U}})\,P({\text{U}})+P({\text{+}}\mid {\overline {\text{U}}})\,P({\overline {\text{U}}})}}\\&={\frac {0.99\times 0.005}{0.99\times 0.005+0.01\times 0.995}}\\&\approx 0.332\end{aligned}}} {\displaystyle {\begin{aligned}P({\text{U}}\mid {\text{+}})&={\frac {P({\text{+}}\mid {\text{U}})\,P({\text{U}})}{P(+)}}\\&={\frac {P({\text{+}}\mid {\text{U}})\,P({\text{U}})}{P({\text{+}}\mid {\text{U}})\,P({\text{U}})+P({\text{+}}\mid {\overline {\text{U}}})\,P({\overline {\text{U}}})}}\\&={\frac {0.99\times 0.005}{0.99\times 0.005+0.01\times 0.995}}\\&\approx 0.332\end{aligned}}}

個人の検査が陽性であるときでさえ、非使用者である可能性が使用者である可能性よりも高い。(それでも検査結果が陽性であったという情報を反映して、

事後確率 P ( U ∣ + ) ≈ 0.332 {\displaystyle P({\text{U}}\mid {\text{+}})\approx 0.332} {\displaystyle P({\text{U}}\mid {\text{+}})\approx 0.332} は事前確率 P ( U ) = 0.005 {\displaystyle P({\text{U}})=0.005} {\displaystyle P({\text{U}})=0.005} よりも大幅に上昇している。)つまり偽陽性の数は真陽性の数より多い。これは非使用者が使用者に比べて多いからである。たとえば、もし無作為に1000人が検査されるならば、995人の非使用者と5人の使用者がいると期待される。995人の非使用者からは0.01 × 995 ≈ 10 人の偽陽性が期待される。5人の使用者からは 0.99 × 5 ≈ 5人の真陽性が期待される。よって陽性であると期待される15人のうち、5人のみが薬物使用者である。

この例における特異度の重要性が次の計算からわかる。仮に感度が100%に上がり特異度が99%のままであれば陽性的中率は33.2%から33.4%に微増するに留まるが、感度が99%のままで特異度が99.5%に上がれば陽性的中率は49.9%に増加する。 』