







『出典: フリー百科事典『ウィキペディア(Wikipedia)』
統計学
回帰分析
モデル
線形回帰 単回帰(英語版) 多項式回帰 一般線形モデル
一般化線形モデル 離散選択(英語版) ロジスティック回帰 多項ロジット(英語版) 混合ロジット(英語版) プロビット(英語版) 多項プロビット(英語版) 順序ロジット(英語版) 順序プロビット(英語版) ポアソン(英語版)
多水準モデル(英語版) 固定効果(英語版) 変量効果 混合モデル
非線形回帰 ノンパラメトリック(英語版) セミパラメトリック(英語版) ロバスト(英語版) 分位点(英語版) 等調(英語版) 主成分(英語版) 最小角度(英語版) 局所 折れ線(英語版)
変数誤差(英語版)
推定
最小二乗法 線形(英語版) 非線形
普通(英語版) 加重(英語版) 一般化(英語版)
部分 総最小二乗法(英語版) 非負(英語版) リッジ回帰 正則化(英語版)
最小絶対偏差(英語版) 繰返し加重(英語版) ベイズ(英語版) ベイズ多変量(英語版)
背景
回帰検証(英語版) 平均応答と予測応答(英語版) 誤差と残差 適合度(英語版) スチューデント化残差 ガウス=マルコフの定理
表話編歴
ロジスティック回帰(ロジスティックかいき、英: Logistic regression)は、ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。
連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。
1958年にデイヴィッド・コックス(英語版)が発表した[1]。
確率の回帰であり、統計学の分類に主に使われる。医学や社会科学でもよく使われる[要出典]。
モデルは同じく1958年に発表された単純パーセプトロンと等価であるが、scikit-learnなどでは、パラメータを決める最適化問題で確率的勾配降下法を使用する物をパーセプトロンと呼び、座標降下法や準ニュートン法などを使用する物をロジスティック回帰と呼んでいる。
概要
ロジスティック回帰モデルは以下のような形式である。x が入力で、pが確率(出力)、αとβがパラメータ。
logit ( p i ) = ln ( p i 1 − p i ) = α + β 1 x 1 , i + ⋯ + β k x k , i , {\displaystyle \operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)=\alpha +\beta {1}x{1,i}+\cdots +\beta {k}x{k,i},}
i = 1 , … , n , {\displaystyle i=1,\dots ,n,\,!}
ここで、n 個のユニットと共変動 X があり、以下のような関係にある。
p i = E ( Y | X i ) = Pr ( Y i = 1 ) . {\displaystyle p_{i}=E(Y|X_{i})=\Pr(Y_{i}=1).\,!}
結果のオッズ(1から確率を引いたもので確率を割った値)の対数は、説明変数 Xi の線形関数としてモデル化される。これを次のようにも表せる。
p i = Pr ( Y i = 1 | X ) = 1 1 + e − ( α + β 1 x 1 , i + ⋯ + β k x k , i ) {\displaystyle p_{i}=\Pr(Y_{i}=1|X)={\frac {1}{1+e^{-(\alpha +\beta {1}x{1,i}+\cdots +\beta {k}x{k,i})}}}}
単純パーセプトロンの記法を使うと上記の式は以下のようにも表現できる。 ς 1 {\displaystyle \varsigma _{1}} は標準シグモイド関数。
p i = ς 1 ( α + β 1 x 1 , i + ⋯ + β k x k , i ) {\displaystyle p_{i}=\varsigma {1}(\alpha +\beta {1}x_{1,i}+\cdots +\beta {k}x{k,i})}
パラメータの推定はオッズ比に重大な影響がある。性別のような2値の説明変数の場合、 e β {\displaystyle e^{\beta }} は例えば男性と女性の結果のオッズ比の推定である。推定には最尤法を使うことが多い。
このモデルの拡張として多分割(polytomous)ロジスティック回帰がある。複数カテゴリの従属変数や順序のある従属変数を扱う。ロジスティック回帰による階層分けを多項ロジットモデルと呼ぶ。
応用
社会科学分野での典型的な応用として、企業の過去のデータをもとに信用リスクを推定するという用法がある。
2値ロジスティック回帰はダイレクトマーケティングでよく使われ、ある提案に反応する人々を特定するのに使われる(従属変数は「反応する=1」と「反応しない=0」である)。
ダイレクトマーケティングの2値ロジスティック回帰モデルは「リフトチャート」を使って評価される。これは、過去のメールへの反応のデータとモデルによる予測結果を比較する。
例
ロジスティック回帰モデルは一般化線形モデルの一種である。p(x) が、予測値変数 x について成功の確率を表すとすると、次のように表される。
p ( x ) = e B 0 + B 1 x 1 + e B 0 + B 1 x . {\displaystyle p(x)={\frac {e^{B_{0}+B_{1}x}}{1+e^{B_{0}+B_{1}x}}}.}
代数的操作を施すと次のようになる。
p ( x ) 1 − p ( x ) = e B 0 + B 1 x , {\displaystyle {\frac {p(x)}{1-p(x)}}=e^{B_{0}+B_{1}x},}
ここで、 p ( x ) 1 − p ( x ) {\displaystyle {\frac {p(x)}{1-p(x)}}} は成功のオッズである。ここで、例えば p(50) が 2/3 となる場合であるとして計算してみると
p ( 50 ) 1 − p ( 50 ) = 2 3 1 − 2 3 = 2. {\displaystyle {\frac {p(50)}{1-p(50)}}={\frac {\frac {2}{3}}{1-{\frac {2}{3}}}}=2.}
したがって、x = 50 のとき、成功の可能性は失敗の2倍(オッズが 2 対 1 )である。
脚注
[脚注の使い方]
^ Cox, DR (1958). “The regression analysis of binary sequences (with discussion)”. J Roy Stat Soc B 20: 215–242.
参考文献
出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。(2018年12月)
Agresti, Alan, Categorical Data Analysis, 2nd ed., New York: Wiley-Interscience, 2002, ISBN 0-471-36093-7.
Amemiya, T., Advanced Econometrics, Harvard University Press, 1985, ISBN 0-674-00560-0.
Balakrishnan, N., Handbook of the Logistic Distribution, Marcel Dekker Inc., 1991, ISBN 0824785878.
Green, William H., Econometric Analysis, fifth edition, Prentice Hall, 2003, ISBN 0-13-066189-9.
Hosmer, David W. and Stanley Lemeshow, Applied Logistic Regression, 2nd ed., New York; Chichester, Wiley, 2000, ISBN 0-471-35632-8.
関連項目
ニューラルネットワーク
データマイニング
判別分析
パーセプトロン
線形分類器
外部リンク
Web-based logistic regression calculator
「ロジスティック回帰分析」入門 鳥居稔(大阪大学)
表話編歴
統計学
典拠管理データベース ウィキデータを編集
カテゴリ:
ロジスティック回帰統計学的分類計量経済学最適化統計検定数学に関する記事
最終更新 2022年12月21日 (水) 02:37 (日時は個人設定で未設定ならばUTC)。
テキストはクリエイティブ・コモンズ 表示-継承ライセンスのもとで利用できます。追加の条件が適用される場合があります。詳細については利用規約を参照してください。
』