情報価値 (Information Value)
属性の情報価値 (IV) と証拠の重み (WOE, Weight of Evidence) の両方を計算します。これらは、依存カラムの望ましい値または結果を予測する際のデータ変数の全体的な「関連性」の尺度です。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | エクスプローラ |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | いいえ |
| データ処理ツール | なし |
IV と WOE の詳細については、「情報価値と証拠分析の重み (WOE)」を参照してください。
アルゴリズム
情報価値オペレーターは、IV と WOE の計算に次の式を使用します。
証拠の重み = Ln(良い分布/悪い分布)*100
情報値 = sum((良い分布 - 悪い分布)*Ln(良い分布/悪い分布))
ここで、 良い分布 は、指定された独立変数グループごとに、従属変数に必要な「予測する値」をもたらす値のパーセンテージを指し、悪い分布 は、「予測する値」ではない各グループ内の値のパーセンテージを指します。
次の表に例を示します。
| 属性 | 良いものの数 | 良い分布 | 悪いものの数 | 悪い分布 | WOE |
|---|---|---|---|---|---|
| Missing | 1 | 10% | 3 | 30% | -109.9 |
| true | 3 | 30% | 2 | 20% | 40.55 |
| false | 6 | 60% | 5 | 50% | 18.23 |
情報値 = (10% - 30%)*Ln(10% / 30%) + (30% - 20%)*Ln(30% / 20%) + (60% - 50%)*Ln(60% / 50%) = 0.2785
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 依存カラム | クラス変数として使用するカラム。 注: [従属カラム] は、カテゴリ変数 (連続変数ではない) である必要があります。 |
| 予測する値 | 分析するイベントを表す [依存カラム] に格納されている値 (たとえば、アクティブか非アクティブか)。 [予測する値] は、[依存カラム] に存在する値である必要があります。それは「良い」イベントとみなされます。 |
| カラム | [予測する値] と等しい [依存カラム] 値の関連性または影響を分析するために使用するカラム。 [カラムの選択] をクリックしてダイアログを開き、分析に使用できる入力データセットからカラムを選択します。詳細については、「カラムの選択ダイアログ」を参照してください。 選択したカラム名はカテゴリ値である必要があります。 |
出力

