変数選択 (HD)
予測タスクまたはモデルに関係する変数を特定し、優先順位を付けます。これは、モデルに多数の潜在的な変数がある場合に特に役立ち、モデラーは最も強い関連性を示す変数のサブセットのみに焦点を当てることができます。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | エクスプローラ |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | MapReduce |
アルゴリズム
Hadoop の場合、情報ゲインと R2 の 2 つの選択肢があります。Hadoop ベースの情報ゲインオプションは、情報ゲインと情報ゲイン比率の両方を計算します。
情報ゲインは、別の (カテゴリカル) 変数 X で条件付けされた場合の、確率変数 Y のエントロピー (または不確実性) の変化の尺度です。この場合、Y は予測されるクラス (従属変数) で、X は候補ドライバーです。
n 個の可能な値 (クラス) を持つカテゴリカル確率変数 Y のエントロピーは次の式で与えられます。
m 値を取る離散変数 X の値を考慮した Y の条件付きエントロピーは、次の式で与えられます。
X を知っていると仮定した場合の Y についての情報ゲインは、X を知っているために Y についてどれだけ多くのことを知っているかを測るものです。
偶然のスコアしきい値は、X が Y を正確に予測できない場合でも、偶然に取得できるスコアです。 Y の分布に従って Y に依存しないように設計された X を生成し、スコアを計算します。下限しきい値 T を生成できます。 T よりスコアが低い候補特徴は、ほぼ確実に出力変数を予測できないため、除外できます。実際には、T は非常に小さいため、おそらくあまり多くの変数が除去されません。ただし、それでも、意味のある変数とあまり意味のない変数に対応するスコアの有用な感覚が得られます。
Hadoop の数値カラムの場合、離散化せずに従属変数と独立変数間の相互情報量を計算します。Hadoop 変数オペレーターは、ビッグ データを扱う場合に非常にコストがかかるため、データベース バージョンのような最小記述長 (MDL, Minimum Description Length) の離散化を実行しません。
各独立変数 X について,R2 は,X と従属変数 Y との間の単回帰の決定係数です。
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 依存カラム | クラス変数として使用するカラムを定義します。 R2 スコアリングの場合、依存カラムは数値である必要があります。 |
| スコアの種類 | Hadoop オプション:
|
| カラム | [カラムの選択] を使用して、入力データセットから分析に使用できるカラムを選択するためのダイアログを開きます。 |
| スコアしきい値 | スコアの種類に適した値を示します。スコアしきい値を超える変数は保存され、後続のオペレーターに渡されます。 デフォルト値: 0.5 |
| 常に含まれるカラム | このリストのカラムは、スコアがしきい値を超えているかどうかに関係なく、後続のオペレーターに自動的に渡されます。 |
| べき乗変換を行いますか? | [はい] の場合、かつ独立変数が数値の場合、変数選択オペレーターは元の変数と一連のべき乗変換のスコアを決定します。 現在サポートされているべき乗変換は次のとおりです。
カラム内のデータが特定の変換に対して意味をなさない場合、その変換のスコアは決定されません。たとえば、カラムに負の数値が含まれている場合、その変数の自然対数のスコアは決定されません。 カラムでもそのカラムが選択されていない限り、常に含まれるカラムではべき乗変換は実行されません。 デフォルト値: いいえ |
| 変数マスク ディレクトリ | 変数マスクが保存されるディレクトリ。この変数マスクは、どのカラムを (どのような変換で) 後続のオペレーターに渡す必要があるかを格納するファイルです。 |
| 変数マスク名 | 変数マスクが保存されるファイル名。 |
出力
| ステータス | 意味 |
|---|---|
| 承認済み | R2 または情報ゲイン値が、この変数に設定されたしきい値を超えています。 |
| 必須 | R2 または情報ゲイン値は設定されたしきい値を超えていませんが、このカラムは「常に含まれる」リストに含まれています。 |
| 拒否済み | R2 または情報ゲイン値が設定されたしきい値を超えていません。 |
| 選択済み | チェックすると、この変数が変数マスクに追加されます。 |
R2用

情報獲得のため
