ワイド データ変数セレクター - カイ 2 乗/Anova
このオペレーターは、非常に大規模なデータセットからのユーザー指定の従属 (Y) 変数に対する各予測子 (X) 変数の有意性統計を含むカイ 2 乗または分散分析の結果を含む新しいデータセットを生成します。つまり、変数の数は次のとおりです。数千または数百万という大規模なものであること。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
各予測子 (X) 変数について、オペレーターは従属 (Y) 変数との相関を計算します。各予測子 (X) 変数について、オペレーターは従属 (Y) 変数に対してカイ 2 乗または一元配置分散分析 (ANOVA) の結果を計算します。カテゴリ従属変数の場合はカイ 2 乗分析を計算でき、連続従属変数の場合は分散分析 (ANOVA) を計算できます。ここでは、すべての予測子がカテゴリカルとして扱われます。連続予測子が存在する場合、それらは結果が計算される前にビニング手順を使用してカテゴリー予測子に変換されます。このアルゴリズムはデータに対して 2 つのパスを実行し、1 つは依存値を収集し、もう 1 つは相関を計算します。
スケーラビリティは、利用可能なクラスター リソース以外によって制限されるべきではありません。
入力
入力は、変数名 (vars)、連続値 (con_vals) を持つ積み上げ形式の変数と値のキー・バリュー ペアを含む単一の表形式のデータセットです。 、カテゴリ値 (cat_vals)、および行 ID (id) カラム。変数が連続の場合、変数 cat_vals の値は Null である必要があり、変数がカテゴリの場合、変数 cont_vals の値は Null である必要があります。
- 従属変数がカテゴリカルである場合、従属変数はカテゴリ値カラムにあり、離散値 (文字列、ロング、整数) を持つ必要があります。
- 連続予測子と連続従属変数がある場合は、ワイド データ変数セレクター - 相関 オペレーターを使用します。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 依存変数名 | カイ 2 乗計算の対象となる従属変数、または分散分析の計算対象となる従属連続変数の名前を指定します。従属変数と予測子が連続である場合は、ワイド データ変数セレクター - 相関 オペレーターを使用します。 |
| 変数カラム | 変数名が格納されるカラムの名前を指定します。従属変数と予測子の名前が含まれている必要があります。 |
| 連続値カラム | 連続変数の値を含むカラムを指定します。 |
| カテゴリ値カラム | カテゴリ変数の値を含むカラムを指定します。 |
| 行 ID カラム | 行ID番号を含むカラムの名前を指定します。 |
| ビンの数 | 連続予測子の離散化に使用されるビンの数を指定します。ビンの境界は等距離です。 デフォルト: 10 |
| カイ 2 乗出力 | 出力を指定します。連続従属変数がある場合は、[Anova] を選択し、カテゴリ従属変数がある場合は、[カイ 2 乗] または [カイ 2 乗値と p 値]を選択します。次の値が利用可能です。
デフォルト: カイ 2 乗 |
| 出力スキーマ | 出力テーブルまたはビューのスキーマを指定します。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 結果の保存 | [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。 |
出力
-
サマリー: 選択したパラメーターとその値を含むデフォルトのサマリー。
-
出力: 要求された出力統計と各予測子の関連する有意水準を含む単一の表形式のデータセット。
例1
次の例は、ワイド データ変数セレクター - カイ 2 乗/分散分析オペレーターを使用した、ユーザー指定の従属変数に対する各予測子変数のカイ 2 乗検定の計算を示しています。
vars カラムにあり、これらの変数の値は con_vals カラムまたは cat_vals カラムにあります。変数の型に基づいて。この例の従属変数は、カテゴリ変数である SATELLTS です。
-
依存変数名: SATELLTS
-
変数カラム: vars
-
連続値カラム: con_vals
-
カテゴリ値カラム: cat_vals
-
行 ID カラム: id
-
ビンの数: 10
-
カイ 2 乗出力: カイ 2 乗値と p 値
-
結果を保存: はい
次の図は出力結果を示しています。1 つの表には解析パラメーターのサマリーが示され、もう 1 つの表には実際の解析結果が示されています。従属変数 SATELLTS は出力結果で利用できます。これは SATELLTS 対 SATELLTS 検定が実行された結果を表し、p 値は 0 です。これは、両方の変数が独立しているという仮説を棄却していることを意味します。
例2
次の例は、予測子ごとに個別に一元配置分散分析の計算を示しています。従属変数はユーザー指定の連続変数です。計算は、ワイド データ変数セレクター - カイ 2 乗/分散分析オペレーターを使用して行われます。
vars カラムにあり、これらの変数の値は con_vals または cat_vals にあります。変数の型に基づいたカラム。ここでは、連続従属変数 WIDTH です。
F 統計量の大きな値と有意な p 値は、予測変数のグループ内の従属変数の動作が大きく異なることを意味します。これは、観察された違いが偶然に生じたものではなく実際のものである可能性が高いことを意味します。