ワイド データ変数セレクター - カイ 2 乗/Anova

このオペレーターは、非常に大規模なデータセットからのユーザー指定の従属 (Y) 変数に対する各予測子 (X) 変数の有意性統計を含むカイ 2 乗または分散分析の結果を含む新しいデータセットを生成します。つまり、変数の数は次のとおりです。数千または数百万という大規模なものであること。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

各予測子 (X) 変数について、オペレーターは従属 (Y) 変数との相関を計算します。各予測子 (X) 変数について、オペレーターは従属 (Y) 変数に対してカイ 2 乗または一元配置分散分析 (ANOVA) の結果を計算します。カテゴリ従属変数の場合はカイ 2 乗分析を計算でき、連続従属変数の場合は分散分析 (ANOVA) を計算できます。ここでは、すべての予測子がカテゴリカルとして扱われます。連続予測子が存在する場合、それらは結果が計算される前にビニング手順を使用してカテゴリー予測子に変換されます。このアルゴリズムはデータに対して 2 つのパスを実行し、1 つは依存値を収集し、もう 1 つは相関を計算します。

ノート: このオペレーターの場合、予測子変数は常にカテゴリカルとして扱われます。連続依存変数と連続予測変数がある場合は、ワイド データ変数セレクター - 相関 オペレーターを使用します。

スケーラビリティは、利用可能なクラスター リソース以外によって制限されるべきではありません。

入力

入力は、変数名 (vars)、連続値 (con_vals) を持つ積み上げ形式の変数と値のキー・バリュー ペアを含む単一の表形式のデータセットです。 、カテゴリ値 (cat_vals)、および行 ID (id) カラム。変数が連続の場合、変数 cat_vals の値は Null である必要があり、変数がカテゴリの場合、変数 cont_vals の値は Null である必要があります。

不良データまたは欠落データ
連続値およびカテゴリ値変数の 1 つは常に欠損値を持ちます。これは、入力データの構造ロジックに基づいて予想されることです。両方が空の場合、その点は問題の変数の分析計算には使用されません。つまり、統計は、他の予測子の欠損値に依存せず、予測子の欠損値のペアではなく、利用可能なすべての値のペアから個別に計算されます。
エラーと例外の処理
この操作では、従属変数の指定の有効性がチェックされます。詳細については、「アルゴリズム」セクションを参照してください。
  • 従属変数がカテゴリカルである場合、従属変数はカテゴリ値カラムにあり、離散値 (文字列、ロング、整数) を持つ必要があります。
  • 連続予測子と連続従属変数がある場合は、ワイド データ変数セレクター - 相関 オペレーターを使用します。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存変数名 カイ 2 乗計算の対象となる従属変数、または分散分析の計算対象となる従属連続変数の名前を指定します。従属変数と予測子が連続である場合は、ワイド データ変数セレクター - 相関 オペレーターを使用します。
変数カラム 変数名が格納されるカラムの名前を指定します。従属変数と予測子の名前が含まれている必要があります。
連続値カラム 連続変数の値を含むカラムを指定します。
カテゴリ値カラム カテゴリ変数の値を含むカラムを指定します。
行 ID カラム 行ID番号を含むカラムの名前を指定します。
ビンの数 連続予測子の離散化に使用されるビンの数を指定します。ビンの境界は等距離です。

デフォルト: 10

カイ 2 乗出力 出力を指定します。連続従属変数がある場合は、[Anova] を選択し、カテゴリ従属変数がある場合は、[カイ 2 乗] または [カイ 2 乗値と p 値]を選択します。次の値が利用可能です。
  • 分散分析
  • カイ 2 乗
  • カイ 2 乗値と p 値

デフォルト: カイ 2 乗

出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
出力 タブと サマリー タブを含む、出力データセットの表形式のプレビュー。
  • サマリー: 選択したパラメーターとその値を含むデフォルトのサマリー。

  • 出力: 要求された出力統計と各予測子の関連する有意水準を含む単一の表形式のデータセット。

データ出力
要求された出力統計と各予測子の関連する有意水準を含む単一の表形式のデータセット。

例1

次の例は、ワイド データ変数セレクター - カイ 2 乗/分散分析オペレーターを使用した、ユーザー指定の従属変数に対する各予測子変数のカイ 2 乗検定の計算を示しています。

ワイド データ変数セレクター - Chi SquareAnova オペレーター ワークフロー
データ
データセットにはスタック形式のデータが含まれており、変数名は vars カラムにあり、これらの変数の値は con_vals カラムまたは cat_vals カラムにあります。変数の型に基づいて。この例の従属変数は、カテゴリ変数である SATELLTS です。
例 1 - ワイド データ変数オペレーターの入力データセット - chi_square
パラメーター設定
この分析のパラメーター設定は次のとおりです。
  • 依存変数名: SATELLTS

  • 変数カラム: vars

  • 連続値カラム: con_vals

  • カテゴリ値カラム: cat_vals

  • 行 ID カラム: id

  • ビンの数: 10

  • カイ 2 乗出力: カイ 2 乗値と p 値

  • 結果を保存: はい

結果

次の図は出力結果を示しています。1 つの表には解析パラメーターのサマリーが示され、もう 1 つの表には実際の解析結果が示されています。従属変数 SATELLTS は出力結果で利用できます。これは SATELLTS 対 SATELLTS 検定が実行された結果を表し、p 値は 0 です。これは、両方の変数が独立しているという仮説を棄却していることを意味します。

サマリー
ワイド データ変数セレクター - Chi SquareAnova オペレーターの概要タブ
出力
ワイド データ変数セレクター - Chi SquareAnova オペレーターの出力タブ

例2

次の例は、予測子ごとに個別に一元配置分散分析の計算を示しています。従属変数はユーザー指定の連続変数です。計算は、ワイド データ変数セレクター - カイ 2 乗/分散分析オペレーターを使用して行われます。

ワイド データ変数セレクター - Chi SquareAnova オペレーター ワークフロー
データ
データセットにはスタック形式のデータが含まれており、変数名は vars カラムにあり、これらの変数の値は con_vals または cat_vals にあります。変数の型に基づいたカラム。ここでは、連続従属変数 WIDTH です。
例 2 - ワイド データ変数オペレーターの入力データセット - anova
パラメーターの設定と結果
結果として得られる出力の次の図には、オペレーターのパラメーター設定も示されています。分散分析の結果は、従属変数が WIDTH で、残りの変数が予測子である場合に計算されます (連続変数は、この分析の目的で、定義されたビン数を持つカテゴリ変数に変換されます)。
サマリー
例 2 - ワイド データ変数オペレーターの要約 - anova
出力
例 2 - ワイド データ変数オペレーターの出力 - anova

F 統計量の大きな値と有意な p 値は、予測変数のグループ内の従属変数の動作が大きく異なることを意味します。これは、観察された違いが偶然に生じたものではなく実際のものである可能性が高いことを意味します。