ロジスティック回帰を使用した確率計算
ロジスティック回帰は、一連の独立変数の値に基づいて特定のカテゴリイベントの発生確率を計算するために、S カーブ ロジスティック関数またはロジット関数をデータセットに統計的に当てはめることです。
ロジスティック回帰は、予測された分類だけでなく、イベントが発生する確率を与える、簡単に解釈できる分類手法です。また、変数の効果の確実性の尺度とともに、個々の入力変数の効果の重要性の尺度も提供します。ユース ケースの例は、個人の財務データに基づいて個人のローン不履行の確率を判断することです。
TIBCO Data Science - Team Studio は、次の 2 つの一般的な形式のロジスティック回帰をサポートしています。
- 最も一般的で広く使用されている形式である2 項ロジスティック回帰は、単一のカテゴリまたは[はい] または「いいえ」などの2 項決定を予測するために使用されます。古典的な使用例は、個人の財務データに基づいて個人のローン不履行の確率を判断することです。具体的には、2 項ロジスティック回帰は、一連の独立変数の値に基づいて、特定のイベントの発生確率、つまり予測する値を計算するために、S カーブ ロジスティック関数またはロジット関数をデータセットに統計的に近似することです。
- より一般的な形式は多項ロジスティック回帰 (MLOR)* で、予測するカテゴリが 2 つだけではなく複数ある場合を処理します。カテゴリデータを処理し、カテゴリ分布従属変数のさまざまな可能な結果の確率を予測します。ユース ケースの例には、天気予報 (晴れ、曇り、雨、雪)、選挙予測、医療問題の分類などが含まれます。具体的には、多項ロジスティック回帰は、2 つ以上の離散的な結果を可能にする多カテゴリ従属変数の発生確率を計算するために、データセットに対する多項ロジット関数の統計的フィッティングです。
一般原理
ロジスティック回帰分析は、1 つ以上の予測変数に基づいてカテゴリ変数の結果の確率を予測します。カテゴリ変数は、「有効」または「無効」など、限られた数の値、レベル、またはカテゴリを取ることができる変数です。ロジスティック回帰の主な利点は、線形回帰とは異なり、予測が常に 0 と 1 の間であることです。
たとえば、ロジスティック モデルは、特定の人がビーチに行く可能性を気温の関数として予測する場合があります。合理的なモデルでは、たとえば、10 度の変化により、人がビーチに行く可能性が 2 倍高くなる、または低くなることが予測される可能性があります。確率の「可能性が 2 倍」という用語は、(確率が 2 倍になるのではなく) オッズが 2 倍になることを指します。むしろ、2:1 オッズ、4:1 オッズ、8:1 オッズなどのように、2 倍になるのは オッズ です。このようなロジスティック モデルは対数オッズ モデルと呼ばれます。
したがって、統計学では、ロジスティック回帰はロジスティック モデルまたはロジット モデルと呼ばれることもあります。データをロジット ロジスティック関数曲線に当てはめることにより、特定のイベントの発生確率を予測するために使用されます。
ロジスティック関数は、1844 年にピエール ヴェルユルスト (Pierre Verhulst) によって導入され、人口増加との関連で研究された S 字曲線で表されます。 一般化ロジスティック曲線 は、ある集団 P の成長における「S 字型」の挙動 (略称 S 曲線) をモデル化できます。成長の初期段階はほぼ 指数関数的です。その後、飽和が始まると成長が遅くなり、成熟すると成長が止まります。この単純なロジスティック関数は次の式で定義できます。
ここで、変数 P は母集団を表し、e は オイラー数 (2.72) であり、変数 t は次のようになります。時間として考えられます。
http://en.wikipedia.org/wiki/Logistic_function#cite_note-0
−∞ から +∞ までの 実数 の範囲の X の値については、示されている S カーブが得られます。実際には、指数関数−t の性質により、[-6, +6]のような小さな実数の範囲で t を計算すれば十分です。
以下は、S カーブまたはロジスティック関数の例です。
ロジスティック関数は、特定のイベントの確率を予測しようとする、より一般化されたモデルに適用できます。この場合、イベントが発生するかどうかに影響を与えるいくつかの要因または変数が存在する可能性があります。このロジスティック回帰式は、一般に次のように線形方程式の形で書くことができます。
ここで、P = Probability of Event (イベントの確率)、回帰係数、および X1,X2,... は独立変数の値です。確率方程式を解くと次の結果が得られます。
イベントが発生する確率は、独立変数の値を考慮した場合の確率を非ケースの確率で割ったものとして定義されます。オッズ比は、ロジスティック回帰における効果の大きさの主な尺度であり、あるグループのメンバーシップが症例の結果につながるオッズと、他のグループのメンバーシップが症例の結果につながるオッズを比較するために計算されます。オッズ比 (OR と表記) は、あるグループの症例であるオッズを別のグループの症例であるオッズで割ることによって単純に計算されます。これは、独立変数の変化が従属変数の値にどの程度影響するかを計算します。
例として、人の身長しかわかっておらず、その人が男性か女性かを予測したいとします。男性か女性である確率について話すこともできますし、男性か女性である確率について話すこともできます。特定の身長で男性である確率が 0.90 であるとします。その場合、男性である確率は次のようになります。
= .9/.1 = 9 対 1 のオッズ
ロジスティック回帰では、オッズの自然対数 (ロジットまたは対数オッズと呼ばれます) を取得して、連続基準を作成します。自然対数関数曲線は次のようになります。
次に、線形回帰分析を使用して、成功のロジットを予測変数に当てはめます。ただし、ロジットの結果は直感的ではないため、ロジットは指数関数または自然対数の逆関数を使用してオッズに変換されます。したがって、ロジスティック回帰の観測変数はカテゴリカルですが、予測スコアは実際には連続変数 (ロジット) としてモデル化されます。
- 2 項または 2 値ロジスティック回帰とは、基準が 2 つの可能な結果のみを取ることができるインスタンスを指します (例: 「死亡」対「生存」、「成功」対「失敗」、または[はい] 対「いいえ」))。
- 注: アルパイン ロジスティクス回帰オペレーターは、従属変数が予測する値または Not(予測する値) であると仮定して2 項回帰を適用します。
- 多項ロジスティック回帰 (MLOR) は、基準が 3 つ以上の可能な結果 (たとえば、「良い」対「変化なし」対「悪い」など) を取る可能性があるインスタンスを指します。一般に、ロジスティック回帰では最も単純な解釈につながるよう、基準が 「0」と「1」としてコード化されます。
アルパイン ロジスティック回帰オペレーターは、最適なフィッティングなどの係数値を計算するために反復再重み付け最小二乗法 (IRLS) の方法を利用します。IRLS は、重み付き最小二乗計算を繰り返し使用して統計的に重要な量を計算するモデリング フィット最適化手法です。このプロセスは、線形回帰モデリングと同様に、標準の最小二乗推定アプローチで入力された観測データセットを使用して係数の値を見つけることから始まります。次に、係数の最初の推定値を取得し、それらを使用して入力データを重み付けし、(数学的重み付け式を使用して) 再計算します。この反復的な入力データの再重み付けは、イプシロンで定義されているように、収束が得られるまで継続されます。
この IRLS メソッドは、モデル内の各変数の係数と各観測の重みの両方を出力します。これは、モデラーが反復中のアルゴリズムの動作を理解するのに役立ちます。これらの重みは、収束に達した後に異常なデータを識別するための有用な診断手段となります。
ロジスティック回帰アルゴリズムでは、最尤法 (ML) 法を使用して、微積分の導関数計算を使用して観測値と予測値の間の可能な最小の逸脱を見つけます。数回の反復の後、可能な限り最小の逸脱または最適な適合に到達します。最適な解が見つかると、-2LL とも呼ばれる逸脱度の最終的なカイ 2 乗値が提供されます。