変数選択 (HD)

予測タスクまたはモデルに関係する変数を特定し、優先順位を付けます。これは、モデルに多数の潜在的な変数がある場合に特に役立ち、モデラーは最も強い関連性を示す変数のサブセットのみに焦点を当てることができます。

変数の選択

情報一覧

パラメーター

説明
カテゴリー エクスプローラ
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール MapReduce

ノート: 変数選択 (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、変数選択 (DB) オペレーターを使用します。

アルゴリズム

Hadoop の場合、情報ゲインと R2 の 2 つの選択肢があります。Hadoop ベースの情報ゲインオプションは、情報ゲインと情報ゲイン比率の両方を計算します。

情報の獲得

情報ゲインは、別の (カテゴリカル) 変数 X で条件付けされた場合の、確率変数 Y のエントロピー (または不確実性) の変化の尺度です。この場合、Y は予測されるクラス (従属変数) で、X は候補ドライバーです。

n 個の可能な値 (クラス) を持つカテゴリカル確率変数 Y のエントロピーは次の式で与えられます。

m 値を取る離散変数 X の値を考慮した Y の条件付きエントロピーは、次の式で与えられます。

X を知っていると仮定した場合の Y についての情報ゲインは、X を知っているために Y についてどれだけ多くのことを知っているかを測るものです。

偶然によるスコアしきい値

偶然のスコアしきい値は、XY を正確に予測できない場合でも、偶然に取得できるスコアです。 Y の分布に従って Y に依存しないように設計された X を生成し、スコアを計算します。下限しきい値 T を生成できます。 T よりスコアが低い候補特徴は、ほぼ確実に出力変数を予測できないため、除外できます。実際には、T は非常に小さいため、おそらくあまり多くの変数が除去されません。ただし、それでも、意味のある変数とあまり意味のない変数に対応するスコアの有用な感覚が得られます。

情報ゲインによる数値カラムの処理

Hadoop の数値カラムの場合、離散化せずに従属変数と独立変数間の相互情報量を計算します。Hadoop 変数オペレーターは、ビッグ データを扱う場合に非常にコストがかかるため、データベース バージョンのような最小記述長 (MDL, Minimum Description Length) の離散化を実行しません。

R2

各独立変数 X について,R2 は,X と従属変数 Y との間の単回帰の決定係数です。

ノート: R2 は、線形モデル f(X) = α + βX が指定されたデータにどの程度適合するかを示します。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存カラム クラス変数として使用するカラムを定義します。

R2 スコアリングの場合、依存カラムは数値である必要があります。

スコアの種類 Hadoop オプション:

  • R2
  • 情報ゲイン

カラム [カラムの選択] を使用して、入力データセットから分析に使用できるカラムを選択するためのダイアログを開きます。
スコアしきい値 スコアの種類に適した値を示します。スコアしきい値を超える変数は保存され、後続のオペレーターに渡されます。

デフォルト値: 0.5

常に含まれるカラム このリストのカラムは、スコアがしきい値を超えているかどうかに関係なく、後続のオペレーターに自動的に渡されます。
べき乗変換を行いますか? [はい] の場合、かつ独立変数が数値の場合、変数選択オペレーターは元の変数と一連のべき乗変換のスコアを決定します。

現在サポートされているべき乗変換は次のとおりです。

  • 指数
  • 自然対数
  • 平方
  • 平方根
  • 逆数

カラム内のデータが特定の変換に対して意味をなさない場合、その変換のスコアは決定されません。たとえば、カラムに負の数値が含まれている場合、その変数の自然対数のスコアは決定されません。

カラムでもそのカラムが選択されていない限り、常に含まれるカラムではべき乗変換は実行されません。

デフォルト値: いいえ

変数マスク ディレクトリ 変数マスクが保存されるディレクトリ。この変数マスクは、どのカラムを (どのような変換で) 後続のオペレーターに渡す必要があるかを格納するファイルです。
変数マスク名 変数マスクが保存されるファイル名。

出力

ビジュアル出力
次の表に示すように、カラム名、R2 または情報ゲイン、ステータス値。
ステータス意味
承認済みR2 または情報ゲイン値が、この変数に設定されたしきい値を超えています。
必須R2 または情報ゲイン値は設定されたしきい値を超えていませんが、このカラムは「常に含まれる」リストに含まれています。
拒否済みR2 または情報ゲイン値が設定されたしきい値を超えていません。
選択済みチェックすると、この変数が変数マスクに追加されます。

R2用

情報獲得のため

データ出力
変数選択オペレーターから提案された変数のサブセットは、ナイーブ ベイズ オペレーター、線形回帰オペレーター、およびロジスティック回帰オペレーターに渡すことができます。これらのオペレーターは、変数選択の結果を使用して、適切な独立値を自動的に選択します。