ワイド データ変数セレクター - 相関

非常に大規模なデータセット (つまり、変数の数が数千または数百万のデータセット) から、ユーザー指定の従属 (Y) 変数に対する各予測子 (X) 変数の相関と有意性統計を含む新しいデータセットを生成します。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark SQL

アルゴリズム

各予測子 (X) 変数について、オペレーターは従属 (Y) 変数との相関を計算します。カテゴリカル予測子が存在する場合、それらは相関関係が計算される前に、インパクト コーディングを使用して連続予測子に変換されます。このアルゴリズムは、データに対して 2 つのパスを実行します。1 つは依存値を収集し、もう 1 つは相関を計算します。

ノート: このオペレーターの場合、従属変数は連続変数である必要があります。従属変数がカテゴリ変数の場合は、オペレーター ワイド データ変数セレクター - カイ 2 乗 / Anova を使用します。

t 統計と対応する p 値の計算では、次の式を使用します。

スケーラビリティは、利用可能なクラスター リソース以外によって制限されるべきではありません。このアルゴリズムは、データに対して 2 つのパスを実行します。1 つは依存値を収集するため、もう 1 つは相関を計算するためです。

入力

variable_names、Continuous_values、categorical_values、および row_id カラムを含む、スタック形式の変数と値のキー・バリュー ペアを含む単一の表形式のデータセット。

データが不正または欠落しています
欠落データは入力テーブルに存在しません。各予測子と従属変数には少なくとも 2 つの値があります。欠落したデータは場合に応じて削除されます。
エラーと例外の処理

この操作では、従属変数の指定の有効性がチェックされます。

  • 従属変数が連続変数である場合、従属変数は連続値カラムにあり、数値 (ダブル、浮動小数点、ロング、整数) を持つ必要があります。
  • 従属変数がカテゴリ変数の場合は、オペレーター ワイド データ変数セレクター - カイ 2 乗 / Anova を使用します。

変数の相関を計算するのに十分なケースがない場合 (少なくとも 2 つ)、操作は NaN を返します。

t 統計量と p 値 を計算するのに十分なケースがない場合 (少なくとも 3 つ)、操作はそれぞれ 0 と 1 を返します。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存変数名 相関関係が計算される従属変数の名前。必要。
変数カラム 連続従属変数を含むカラムの名前。
連続値カラム 連続予測値を含むカラムの名前。 依存変数名 が連続として指定されている場合、この値は必須です。
カテゴリ値カラム カテゴリカル予測子の値を含むカラムの名前。 依存変数名 が連続として指定されている場合、この値は必須です。
行 ID カラム 行 ID 番号を含むカラムの名前。必要。
フォールドの数 交差検証されたインパクトコーディングで使用されるフォールドの数。範囲は 2 ~ 98。
総平均置換のしきい値 依存関係の平均が影響コーディング値として使用される整数のしきい値。 0 から最大整数値までの範囲。
ランダム シード データをフォールドに分割するときに乱数生成のシードとして使用する整数値。 0 から最大整数値までの範囲。
相関の計算 相関関係の計算に使用する方法を指定します。 Spark SQL (デフォルト) または TDS のいずれかを指定できます。
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
出力データセットの表形式のプレビュー。出力 タブと サマリー タブが含まれます。
出力
各予測子の相関関係と有意性統計を含む単一の表形式のデータセット。
サマリー
デフォルトのサマリー。選択されたパラメータ、入力データ サイズ、出力場所が含まれます。
データ出力
各予測子の と有意性統計を含む単一の表形式のデータセット。

次の例は、ワイド テーブルとオペレーターが必要とする積み上げテーブル入力との関係を示しています。