ワイド データ変数セレクター - 相関

このオペレーターは、非常に大規模なデータセットから、ユーザー指定の従属 (Y) 変数に対する各予測子 (X) 変数の相関と有意性統計を含む新しいデータセットを生成します。つまり、変数の数は数千または数百万になる可能性があります。 。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

各予測子 (X) 変数について、オペレーターは従属 (Y) 変数に対する相関 (ピアソン相関係数) を計算します。カテゴリカル予測子が存在する場合、それらは相関関係が計算される前に、インパクト コーディングを使用して連続予測子に変換されます。このアルゴリズムはデータに対して 2 つのパスを実行し、1 つは依存値を収集し、もう 1 つは相関を計算します。

ノート: このオペレーターの場合、従属変数は連続変数である必要があります。従属変数がカテゴリ変数の場合は、ワイド データ変数セレクター - カイ 2 乗/分散分析 オペレーターを使用します。

次の式を使用して、関係の統計的有意性をテストするための t 統計量と、対応する p 値の計算を計算します。

スケーラビリティは、利用可能なクラスター リソース以外によって制限されるべきではありません。

入力

入力は、variable_names、continuous_values、categorical_values、および row_id カラムを含むスタック形式の変数と値のキー・バリュー ペアを含む単一の表形式のデータセットです。variable_names にはすべての変数 (従属変数および予測子) の名前が含まれており、これらの変数の値は continuous_values カラムまたは categorical_values カラムのいずれかにあります (これは変数のタイプによって異なります)。

ノート: 入力データセットには、Y という名前のカラムが含まれていてはなりません。含まれていない場合はエラーが発生します。
不良データまたは欠落データ
continuous_values 変数と categorical_values 変数の 1 つは常に欠損値を持ちます。これは、入力データの構造ロジックに基づいて予想されるとおりです。continuous_values 変数と categorical_values 変数の両方が空の場合、その点は問題の変数の相関計算に使用されません。つまり、相関関係は、他の予測子の欠損値に依存せず、予測子のすべての利用可能な欠落値のペアから個別に計算されます。
エラーと例外の処理

この操作では、従属変数の指定の有効性がチェックされます。詳細については、「アルゴリズム」の章を参照してください。

変数の相関を計算するのに十分なケースが不足している場合 (少なくとも 2 つ)、操作は NaN を返します。

t 統計量と p 値 を計算するのに十分なケース数がない場合(少なくとも 3 つ)、この操作はそれぞれ 01 を返します。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存変数名 相関関係を計算する従属変数の名前を指定します。従属変数は連続変数である必要があります。従属変数がカテゴリ変数の場合は、ワイド データ変数セレクター - カイ 2 乗/分散分析 オペレーターを使用します。
変数カラム 変数名が格納されるカラムの名前を指定します。従属変数と予測子の名前が含まれている必要があります。
連続値カラム 連続予測子と従属変数の値を含むカラムを指定します。
カテゴリ値カラム カテゴリカル予測子の値を含むカラムを指定します。
行 ID カラム 行ID番号を含むカラムの名前を指定します。
フォールドの数 交差検証されたインパクト コーディングで使用されるフォールドの数を指定します。値の範囲は 298 です。

デフォルト: 2

総平均置換のしきい値 整数のしきい値を指定します。このしきい値を下回ると、依存関係の平均が影響コーディング値として使用されます。値の範囲は 0 から最大整数値までです。

デフォルト: 1000

ランダム シード 擬似ランダム生成に使用するシード。値の範囲は 0 から最大整数値までです。
相関の計算 相関関係の計算に使用する方法を指定します。 Spark または TDS のいずれかになります。

デフォルト: Spark

相関出力 相関出力を指定します。次の値が使用可能です。
  • 相関

  • 相関関係と t 統計量

デフォルト: 相関

出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
出力 タブと サマリー タブを含む、出力データセットの表形式のプレビュー。
  • サマリー: 選択したパラメーターとその値を含むデフォルトのサマリー。

  • 出力: 各予測子の相関関係を含む単一の表形式のデータセット (オプションで t 統計量とその有意性を含む)。

データ出力
従属変数と各予測子 (オプションで t 統計量およびその p 値) の相関関係を含む単一の表形式のデータセット。

次の例では、ワイド データ変数セレクター - 相関オペレーターを使用して、ユーザー指定の従属変数に対して各予測子変数を相関させることによって作成されたデータセットを生成します。

ワイド データ変数セレクター - 相関オペレーターのワークフロー
データ
データ集合は、変数名が vars カラムにあり、これらの変数の値が変数のタイプに基づいて con_vals(continuous_values)または cat_vals(categorical_values)カラムにある、積み重ねられたフォーマットのデータを含みます。このカラムの従属変数は、WIDTH 変数です。
Wide Data Variable オペレーターの入力データセット
パラメーター設定
WIDTH 変数との相関関係を取得するためのパラメーター設定は次のとおりです。
  • 依存変数名: WIDTH

  • 変数カラム: vars

  • 連続値カラム: con_vals

  • カテゴリ値カラム: cat_vals

  • 行 ID カラム: id

  • 折り目の数: 2

  • 総平均置換のしきい値: 1000

  • ランダム シード: 0

  • 相関計算: TDS

  • 相関出力: 相関と t 統計量

  • 結果を保存: はい

結果
次の図は、ワイド データ変数セレクター - 相関オペレーターの結果を示しています。分析用のパラメーターのサマリーを示す 1 つの表と、実際の相関結果を示す 1 つの表が表示されます。変数 WIDTH は、予測子ではない場合でも、結果で使用できます。WIDTH と WIDTH の相関係数は論理的に 1 であり、t 統計量は高く、p 値がゼロであることは、変数の関係が統計的に有意であることを証明します。
サマリー
ワイド データ変数セレクター - 相関オペレーター - [サマリー] タブ
出力
ワイド データ変数セレクター - 相関オペレーター - [出力] タブ