相関
このオペレーターは、選択したカラムの各ペア間の相関を計算することにより、相互に相関分析するためにデータセット内の 2 つ以上の数値型属性 (カラム) を指定するために使用されます。
情報一覧
ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。
|
パラメーター |
説明 |
|---|---|
| カテゴリー | エクスプローラ |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
2 つの変数 (X と Y) 間の共分散は、次の式で計算されます。
ここで、
と
は、それぞれ X と Y の平均値です。
相関関係は、次の式で与えられるように、共分散を正規化することによって計算されます。
相関と共分散、およびそれらを記述するアルゴリズムの詳細については、「相関と共分散」を参照してください。
入力
入力は単一の表形式のデータセットです。
ノート: 相関オペレーターは、出力にカラム Attribute を生成します。したがって、入力データセットには Attribute という名前のカラムが含まれていてはなりません。含まれていない場合はエラーが発生します。
欠落値または Null 値
選択したカラムには Null 値があってはなりません。
制限事項
このアルゴリズムは数値データにのみ関係します。
構成
次の表に、相関オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| カラム | 相関または共分散を計算する数値カラムを指定します。 [カラムの選択] をクリックして、必要なカラムを選択します。 ノート: 入力データセットには、Attribute という名前のカラムが含まれていてはなりません。含まれていない場合はエラーが発生します。 |
| グループ・バイ | 1 つ以上のグループ・バイカラムを選択すると、オペレーターはグループ・バイカラムの値のすべての組み合わせに対して個別の相関 (または共分散) 行列を計算します。 1 つ以上のカラムを選択できます。 [カラムの選択] をクリックして、必要なカラムを選択します。 ノート:
|
| 計算 | 相関と共分散のどちらを計算するかを指定します。相関は正規化された共分散であり、任意の変数とそれ自体の正の倍数の間の相関が常に 1 になるようにスケーリングされます。 デフォルト: 相関 |
| 出力スキーマ | 出力テーブルまたはビューのスキーマを指定します。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 結果の保存 | [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。 |
出力
ビジュアル出力
指定された group-by 値の各組み合わせの相関 (または共分散) 行列を 1 つの出力にスタックして表示します。
ノート: Group-by パラメーターが指定されていない場合、完全なデータから計算された 1 つの行列のみが出力されます。
データ出力
ビジュアル出力は、その出力としてダウンストリーム オペレーターに渡されます。
例
次の例は、相関オペレーターを示しています。
データ
golf: このデータセットには次の情報が含まれています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
-
カラム: 温度、湿度
-
グループ・バイ: 天気概況
-
計算: 相関
-
結果を保存: はい
結果
次の図は、golf データセットのパラメーター設定の結果を示しています。