相関

このオペレーターは、選択したカラムの各ペア間の相関を計算することにより、相互に相関分析するためにデータセット内の 2 つ以上の数値型属性 (カラム) を指定するために使用されます。

相関関係

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー エクスプローラ
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

2 つの変数 (XY) 間の共分散は、次の式で計算されます。

共分散式

ここで、X の平均Y の平均 は、それぞれ XY の平均値です。

相関関係は、次の式で与えられるように、共分散を正規化することによって計算されます。

相関式

相関と共分散、およびそれらを記述するアルゴリズムの詳細については、「相関と共分散」を参照してください。

入力

入力は単一の表形式のデータセットです。

ノート: 相関オペレーターは、出力にカラム Attribute を生成します。したがって、入力データセットには Attribute という名前のカラムが含まれていてはなりません。含まれていない場合はエラーが発生します。
欠落値または Null 値
選択したカラムには Null 値があってはなりません。

制限事項

このアルゴリズムは数値データにのみ関係します。

構成

次の表に、相関オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム 相関または共分散を計算する数値カラムを指定します。 [カラムの選択] をクリックして、必要なカラムを選択します。
ノート: 入力データセットには、Attribute という名前のカラムが含まれていてはなりません。含まれていない場合はエラーが発生します。
グループ・バイ 1 つ以上のグループ・バイカラムを選択すると、オペレーターはグループ・バイカラムの値のすべての組み合わせに対して個別の相関 (または共分散) 行列を計算します。 1 つ以上のカラムを選択できます。 [カラムの選択] をクリックして、必要なカラムを選択します。
ノート:
  • グループ・バイ カラムの選択は、カラム パラメーターで選択したカラムと重複することはできません。
  • 相関値または共分散値を生成するには、グループ・バイ カラムと Attribute カラムの特定の組み合わせに対して少なくとも 2 つの一意のデータ ポイントが必要です。結果は NaN 値になります。

計算 相関共分散のどちらを計算するかを指定します。相関は正規化された共分散であり、任意の変数とそれ自体の正の倍数の間の相関が常に 1 になるようにスケーリングされます。

デフォルト: 相関

出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
指定された group-by 値の各組み合わせの相関 (または共分散) 行列を 1 つの出力にスタックして表示します。
ノート: Group-by パラメーターが指定されていない場合、完全なデータから計算された 1 つの行列のみが出力されます。
データ出力
ビジュアル出力は、その出力としてダウンストリーム オペレーターに渡されます。

次の例は、相関オペレーターを示しています。

相関オペレーターのワークフロー
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • カラム: 温度、湿度

  • グループ・バイ: 天気概況

  • 計算: 相関

  • 結果を保存: はい

結果
次の図は、golf データセットのパラメーター設定の結果を示しています。
相関オペレーター - [出力]タブ