ワイド データ変数セレクター - カイ 2 乗 / Anova
非常に大規模なデータセット (つまり、変数の数が数千または数百万のデータセット) から、ユーザー指定の従属 (Y) 変数に対する各予測子 (X) 変数の相関と有意性統計を含む新しいデータセットを生成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark SQL |
アルゴリズム
各予測子 (X) 変数について、オペレーターは従属 (Y) 変数との相関を計算します。カテゴリカル予測子が存在する場合、それらは相関関係が計算される前に、インパクト コーディングを使用して連続予測子に変換されます。このアルゴリズムは、データに対して 2 つのパスを実行します。1 つは依存値を収集し、もう 1 つは相関を計算します。
t 統計と対応する p 値の計算では、次の式を使用します。
スケーラビリティは、利用可能なクラスター リソース以外によって制限されるべきではありません。このアルゴリズムは、データに対して 2 つのパスを実行します。1 つは依存値を収集するため、もう 1 つは相関を計算するためです。
入力
variable_names、Continuous_values、categorical_values、および row_id カラムを含む、スタック形式の変数と値のキー・バリュー ペアを含む単一の表形式のデータセット。
この操作では、従属変数の指定の有効性がチェックされます。詳細については、「アルゴリズム」セクションを参照してください。
- 従属変数がカテゴリカルである場合、従属変数はカテゴリ値カラムにあり、離散値 (文字列、ロング、整数) を持つ必要があります。
- 従属変数が連続変数の場合は、オペレーター ワイド データ変数セレクター - 相関を使用します。
変数の相関を計算するのに十分なケースがない場合 (少なくとも 2 つ)、操作は NaN を返します。
t 統計量と p 値 を計算するのに十分なケースがない場合 (少なくとも 3 つ)、操作はそれぞれ 0 と 1 を返します。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 依存変数名 | 相関関係が計算される従属変数の名前。従属変数はカテゴリ変数である必要があります。連続的な場合は、オペレーター ワイド データ変数セレクター - 相関を使用します。 必須。 |
| 変数カラム | 従属変数を含むカラムの名前。 |
| 連続値カラム | 連続予測値を含むカラムの名前。 |
| カテゴリ値カラム | カテゴリカル予測子の値を含むカラムの名前。必要。 |
| 行 ID カラム | 行 ID 番号を含むカラムの名前。必要。 |
| ビンの数 | 相関に使用されるビンの数。デフォルトは 10 です。 |
| カイ 2 乗出力 | 次のいずれかになります。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 高度な Spark 設定の自動最適化 |
|
出力
例
次の例は、ワイド テーブルとオペレーターが必要とする積み上げテーブル入力との関係を示しています。