情報価値と証拠の重み分析
情報価値分析は、データセット内のどのカラムが予測力を持つか、または指定された従属変数の値に影響を与えるかを判断するのに役立つデータ探査手法です。
詳細については、「情報価値」オペレーターを参照してください。
情報価値分析は銀行にとって人気のツールであり、たとえば、どのクレジット カード顧客がデフォルトする可能性が最も高いかを判断するのに役立つ一連の変数を提供します。情報価値オペレーターは、IV と WOE を次のように定義します。
- IV - バイナリ従属変数 y を捕捉する際の独立連続変数 x の予測力を定量化する数値。IV は、特に潜在的な変数が大量にある場合に、ロジスティック回帰の準備の最初のステップとして変数の数を減らすのに役立ちます。IV は、他の予測変数を考慮せずに、個々の独立変数を順に分析することに基づいています。
- WOE - IV 値と密接に関連しており、WOE は、従属変数の望ましい値を予測する際の、グループ・バイされた各属性の強度を測定します。
次の表は、情報値を使用して各変数の予測力を理解するための標準的な経験則を示しています。
| 情報価値 | 予測力 |
|---|---|
| < 0.02 | 無用 |
| 0.02 - 0.1 | 弱い |
| 0.1 - 0.3 | 中 |
| 0.3 ~ 0.5 | 強い |
| > 0.5 | 疑わしいほど良い。現実的とは考えられない良さ |
通常、モデル開発には中程度の予測力と強い予測力を持つ変数が選択されます。ただし、一部の学派は、広範なベースのモデル開発のために中程度の IV を持つ変数のみを推奨します。
上の例では、各人の 90 日遅延回数、2 年間で 30 日遅延回数、年齢、扶養家族の数、教育レベルが評価され、その変数がローンの支払い遅延をどの程度予測するかを確認しました。上記の提案された結果評価表を使用すると、2 年間で 30 日遅れた回数が、その人が将来ローンを支払うかどうかの中程度の予測因子 (IV=0.13231212) になります。