変数選択 (DB)

予測タスクまたはモデルに関係する変数を特定し、優先順位を付けます。これは、モデルに多数の潜在的な変数がある場合に特に役立ち、モデラーは最も強い関連性を示す変数のサブセットのみに焦点を当てることができます。

変数の選択

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降を使用するワークフローでも使用できます。

パラメーター

説明
カテゴリー エクスプローラ
データ ソース タイプ DB
出力を他のオペレーターに送信 いいえ
データ処理ツール なし

ノート: 変数選択 (DB) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、変数選択 (HD) オペレーターを使用します。

アルゴリズム

データベースの場合、変数選択には、情報ゲイン、情報ゲイン率、および変換情報ゲインの 3 つの情報ゲイン・ベースのスコアリング メトリックがあります。数値カラムの場合は離散化します。変数のスコアをランダムなベンチマークと比較して、変数の予備的なしきい値を設定することをお勧めします。

情報ゲイン

情報ゲインは、別の (カテゴリカル) 変数 X で条件付けされた場合の、確率変数 Y のエントロピー (または不確実性) の変化の尺度です。この場合、Y は予測されるクラス (従属変数) で、X は候補ドライバーです。

n 個の可能な値 (クラス) を持つカテゴリカル確率変数 Y のエントロピーは次の式で与えられます。

m 値を取る離散変数 X の値を考慮した Y の条件付きエントロピーは、次の式で与えられます。

X を知っていると仮定した場合の Y についての情報ゲインは、X を知っているために Y についてどれだけ多くのことを知っているかを測るものです。

情報ゲイン率

情報ゲインのバイアスを調整する標準的な方法は、X のエントロピーによって正規化することです。これは情報ゲイン率と呼ばれます。

ノート: 情報ゲイン率が高いほど、X による Y の予測が向上します。
変換情報ゲイン

バイアスを調整するもう 1 つの方法は、すべての候補特徴を同じ数のクラスにマッピングすることです。

バイナリ出力変数の場合、各候補特徴から単純な予測子を作成し、X からの単純な予測を考慮して Y の情報ゲインを測定できます。

単純な予測子を構築する 1 つの方法は次のとおりです。

  • 真の出力クラス P の事前確率を計算します。
  • 各入力クラスの真の出力クラスの確率を計算します。 pI = p(Y = TRUE|X = xI)
  • pI > P の場合、クラス xI のすべてのメンバーについて TRUE を予測し、それ以外の場合は FALSE を予測します。

これにより、変数 XY と同じ数のクラスを取る単純な予測子 (simple predictor) に変換されます。 X のスコアは IG(Y, "simple predictor") によって与えられるようになりました。

ノート: 変換情報ゲインが高いほど、X による Y の予測が向上します。
偶然によるスコアしきい値

偶然のスコアしきい値は、XY を正確に予測できない場合でも、偶然に取得できるスコアです。 Y の分布に従って Y に依存しないように設計された X を生成し、スコアを計算します。下限しきい値 T を生成できます。 T よりスコアが低い候補特徴は、ほぼ確実に出力変数を予測できないため、除外できます。実際には、T は非常に小さいため、おそらくあまり多くの変数が除去されません。ただし、それでも、意味のある変数とあまり意味のない変数に対応するスコアの有用な感覚が得られます。

情報ゲインによる数値カラムの処理

データベースでは、連続/数値 X の確率密度をヒストグラムで近似します。これを行うには、X をかなり多数の離散クラスに分割し、方程式アップまたは変換手法を使用してスコアを計算します。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存カラム

クラス変数として使用するカラムを定義します。

R2 スコアリングの場合、依存カラムは数値である必要があります。

スコア タイプ データベースのオプション:

  • 情報ゲイン
  • 情報ゲイン率
  • 変換情報ゲイン

カラム [カラムの選択] を使用してダイアログを開き、分析に使用できる入力データセットからカラムを選択します。
スコアしきい値 スコアの種類に適した値を示します。スコアしきい値を超える変数は保存され、後続のオペレーターに渡されます。

デフォルト値: 0.1

常に含まれるカラム このリストのカラムは、スコアがしきい値を超えているかどうかに関係なく、後続のオペレーターに自動的に渡されます。
出力スキーマ 出力テーブルまたはビューのスキーマ。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
存在する場合は削除 既存のテーブルを上書きするかどうかを指定します。
  • はい - その名前のテーブルが存在する場合、結果を保存する前にテーブルが削除されます。
  • いいえ - その名前のテーブルが存在する場合、結果ウィンドウにエラー メッセージが表示されます。

出力

ビジュアル出力
カテゴリと数値カラムの偶然のスコアと各カラムの変数選択スコア。
データ出力
なし。これはターミナル オペレーターです。