ワイド データ変数セレクター - 相関
非常に大規模なデータセット (つまり、変数の数が数千または数百万のデータセット) から、ユーザー指定の従属 (Y) 変数に対する各予測子 (X) 変数の相関と有意性統計を含む新しいデータセットを生成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark SQL |
アルゴリズム
各予測子 (X) 変数について、オペレーターは従属 (Y) 変数との相関を計算します。カテゴリカル予測子が存在する場合、それらは相関関係が計算される前に、インパクト コーディングを使用して連続予測子に変換されます。このアルゴリズムは、データに対して 2 つのパスを実行します。1 つは依存値を収集し、もう 1 つは相関を計算します。
t 統計と対応する p 値の計算では、次の式を使用します。
スケーラビリティは、利用可能なクラスター リソース以外によって制限されるべきではありません。このアルゴリズムは、データに対して 2 つのパスを実行します。1 つは依存値を収集するため、もう 1 つは相関を計算するためです。
入力
variable_names、Continuous_values、categorical_values、および row_id カラムを含む、スタック形式の変数と値のキー・バリュー ペアを含む単一の表形式のデータセット。
この操作では、従属変数の指定の有効性がチェックされます。
- 従属変数が連続変数である場合、従属変数は連続値カラムにあり、数値 (ダブル、浮動小数点、ロング、整数) を持つ必要があります。
- 従属変数がカテゴリ変数の場合は、オペレーター ワイド データ変数セレクター - カイ 2 乗 / Anova を使用します。
変数の相関を計算するのに十分なケースがない場合 (少なくとも 2 つ)、操作は NaN を返します。
t 統計量と p 値 を計算するのに十分なケースがない場合 (少なくとも 3 つ)、操作はそれぞれ 0 と 1 を返します。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 依存変数名 | 相関関係が計算される従属変数の名前。必要。 |
| 変数カラム | 連続従属変数を含むカラムの名前。 |
| 連続値カラム | 連続予測値を含むカラムの名前。 依存変数名 が連続として指定されている場合、この値は必須です。 |
| カテゴリ値カラム | カテゴリカル予測子の値を含むカラムの名前。 依存変数名 が連続として指定されている場合、この値は必須です。 |
| 行 ID カラム | 行 ID 番号を含むカラムの名前。必要。 |
| フォールドの数 | 交差検証されたインパクトコーディングで使用されるフォールドの数。範囲は 2 ~ 98。 |
| 総平均置換のしきい値 | 依存関係の平均が影響コーディング値として使用される整数のしきい値。 0 から最大整数値までの範囲。 |
| ランダム シード | データをフォールドに分割するときに乱数生成のシードとして使用する整数値。 0 から最大整数値までの範囲。 |
| 相関の計算 | 相関関係の計算に使用する方法を指定します。 Spark SQL (デフォルト) または TDS のいずれかを指定できます。 |
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 高度な Spark 設定の自動最適化 |
|
出力
例
次の例は、ワイド テーブルとオペレーターが必要とする積み上げテーブル入力との関係を示しています。