ワイド データ変数セレクター - 相関
このオペレーターは、非常に大規模なデータセットから、ユーザー指定の従属 (Y) 変数に対する各予測子 (X) 変数の相関と有意性統計を含む新しいデータセットを生成します。つまり、変数の数は数千または数百万になる可能性があります。 。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
各予測子 (X) 変数について、オペレーターは従属 (Y) 変数に対する相関 (ピアソン相関係数) を計算します。カテゴリカル予測子が存在する場合、それらは相関関係が計算される前に、インパクト コーディングを使用して連続予測子に変換されます。このアルゴリズムはデータに対して 2 つのパスを実行し、1 つは依存値を収集し、もう 1 つは相関を計算します。
次の式を使用して、関係の統計的有意性をテストするための t 統計量と、対応する p 値の計算を計算します。
スケーラビリティは、利用可能なクラスター リソース以外によって制限されるべきではありません。
入力
入力は、variable_names、continuous_values、categorical_values、および row_id カラムを含むスタック形式の変数と値のキー・バリュー ペアを含む単一の表形式のデータセットです。variable_names にはすべての変数 (従属変数および予測子) の名前が含まれており、これらの変数の値は continuous_values カラムまたは categorical_values カラムのいずれかにあります (これは変数のタイプによって異なります)。
この操作では、従属変数の指定の有効性がチェックされます。詳細については、「アルゴリズム」の章を参照してください。
- 従属変数が連続変数である場合、従属変数は連続値カラムにあり、数値 (ダブル、浮動小数点、ロング、整数) を持つ必要があります。
- 従属変数がカテゴリ変数の場合は、ワイド データ変数セレクター - カイ 2 乗/分散分析 オペレーターを使用します。
変数の相関を計算するのに十分なケースが不足している場合 (少なくとも 2 つ)、操作は NaN を返します。
t 統計量と p 値 を計算するのに十分なケース数がない場合(少なくとも 3 つ)、この操作はそれぞれ 0 と 1 を返します。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 依存変数名 | 相関関係を計算する従属変数の名前を指定します。従属変数は連続変数である必要があります。従属変数がカテゴリ変数の場合は、ワイド データ変数セレクター - カイ 2 乗/分散分析 オペレーターを使用します。 |
| 変数カラム | 変数名が格納されるカラムの名前を指定します。従属変数と予測子の名前が含まれている必要があります。 |
| 連続値カラム | 連続予測子と従属変数の値を含むカラムを指定します。 |
| カテゴリ値カラム | カテゴリカル予測子の値を含むカラムを指定します。 |
| 行 ID カラム | 行ID番号を含むカラムの名前を指定します。 |
| フォールドの数 | 交差検証されたインパクト コーディングで使用されるフォールドの数を指定します。値の範囲は 2 ~ 98 です。 デフォルト: 2 |
| 総平均置換のしきい値 | 整数のしきい値を指定します。このしきい値を下回ると、依存関係の平均が影響コーディング値として使用されます。値の範囲は 0 から最大整数値までです。 デフォルト: 1000 |
| ランダム シード | 擬似ランダム生成に使用するシード。値の範囲は 0 から最大整数値までです。 |
| 相関の計算 | 相関関係の計算に使用する方法を指定します。 Spark または TDS のいずれかになります。 デフォルト: Spark |
| 相関出力 | 相関出力を指定します。次の値が使用可能です。
デフォルト: 相関 |
| 出力スキーマ | 出力テーブルまたはビューのスキーマを指定します。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 結果の保存 | [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。 |
出力
-
サマリー: 選択したパラメーターとその値を含むデフォルトのサマリー。
-
出力: 各予測子の相関関係を含む単一の表形式のデータセット (オプションで t 統計量とその有意性を含む)。
例
次の例では、ワイド データ変数セレクター - 相関オペレーターを使用して、ユーザー指定の従属変数に対して各予測子変数を相関させることによって作成されたデータセットを生成します。
con_vals(continuous_values)または cat_vals(categorical_values)カラムにある、積み重ねられたフォーマットのデータを含みます。このカラムの従属変数は、WIDTH 変数です。
-
依存変数名: WIDTH
-
変数カラム: vars
-
連続値カラム: con_vals
-
カテゴリ値カラム: cat_vals
-
行 ID カラム: id
-
折り目の数: 2
-
総平均置換のしきい値: 1000
-
ランダム シード: 0
-
相関計算: TDS
-
相関出力: 相関と t 統計量
-
結果を保存: はい