ロジスティック回帰の使用例 (1)
2 項ロジスティック回帰は、医学および社会科学の分野、および顧客の製品購入傾向を予測するマーケティング アプリケーションで広く使用されています。
クレジット延滞
次のモデルは、ロジスティック回帰モデルを使用してクレジット延滞の可能性を評価する方法を示しています。この場合、予測する値は、深刻なクレジット カード残高の滞納がある個人の「1」の確率として定義されるかもしれません。ロジスティック回帰では、個人のリボ払い利用状況、負債比率、利用限度額、月収、年齢、学歴、扶養家族の数、および 30/90 日の遅延回数を考慮して、重大な延滞値が 1 になる確率を予測できます。
データセット
このデータセットの例は、2つのソースデータセットを結合して作成されています。1つはクレジット ヒストリー(credit.csv (1.8 MB))、もう1つは各顧客のデモグラフィック プロフィール データ(demographics.csv (1.4MB))です。
テーブル ジョイン オペレーターの構成と結果のデータセットを以下に示します。
ワークフロー
次のように、ロジスティック回帰オペレーターとロジスティック回帰予測オペレーター、ROC (受信者動作特性)、混同行列、適合度、および LIFT スコアリング オペレーターを追加して、結合されたデータセットからロジスティック回帰モデルを構築します。
結果
Summary セクションには次の内容が表示されます。
全体的なロジスティック回帰モデルは、わずか 6 回の反復で非常に早く収束し、相関関係が確認されたことを示しています。
- 残差逸脱度は Null 逸脱度より優れています。これは、モデルがランダムな推測よりも予測性が高いことを意味します。
- カイ 2 乗値は 2 つの値の差です。
カイ 2 乗値と Null 逸脱度の比率を常に確認してください。この比率は、ロジスティック回帰モデル (線形回帰の R2 統計量の類似物) によって説明される従属変数の分散の一部です。この例では、説明される分散のパーセントは 4163.5420/18528.9167、つまり 22.4%です。 (それほど高くはありません。)
Data 結果セクションには次の内容が表示されます。
分析するには、カラム ヘッダーをクリックして P 値 で並べ替えます。これにより、モデル内で重要な変数の信頼性を評価する簡単な方法が提供されます。P 値が小さいほど良好です。
この例では、90dayslate、debt_ratio、 income はすべてP 値が 5% 未満です。モデルを繰り返し、、credit_linesrevolve_util、age、edu、30dayslate、および num_dep のような有意性の低いパラメーターを削除することができます。モデルを再実行し、有意性を再チェックします。
ロジスティック回帰予測オペレーターを含めると、追加のモデル結果が得られます。
- 予測値 (0 または 1) では、予測が起こる信頼度が 50% 未満であるしきい値の仮定が使用されます。
C(1)列は、従属値が 1 であるという信頼度を示します。C(0)列は、従属値が 0 であるという信頼度を示します。- モデラーは、予測カラムを無視し、別の信頼レベルを使用して、たとえば 0.25 などの低いしきい値を使用して、信用延滞の可能性がある個人をグループ・バイすることを決定できます。
ROC グラフ、リフト、適合度オペレーターなどのロジスティック回帰モデル診断ツールを追加して接続すると、モデルの品質に関する追加のフィードバックが提供されます。
ROC 曲線は、以下に示すように、感度 (正しく分類された結果のパーセント) と偽陽性をプロットします。
AUC 値が大きいほど、モデルの予測性が高くなります。通常、0.80 を超える AUC 値は「良好な」モデルとみなされます。値 0.5 は、モデルが半分の確率で正しい答えを推測できる「愚かな」モデルよりも優れていないことを意味します。