相関 (DB)

選択したカラムの各ペア間の相関を計算することにより、相互に相関分析するためにデータセット内の 2 つ以上の数値型属性 (列) を指定するために使用します。

相関関係

情報一覧

パラメーター

説明
カテゴリー エクスプローラ
データ ソース タイプ DB
出力を他のオペレーターに送信 いいえ
データ処理ツール なし

ノート: 相関 (DB) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、相関 (HD) オペレーターを使用します。

アルゴリズム

2 つの変数 (XY) 間の共分散は、次の式に示すように計算されます。

共分散式

ここで、X の平均Y の平均 は、それぞれ XY の平均値です。

相関関係は、次の式に示すように、共分散を正規化することによって計算されます。

相関式

ノート: 主成分分析 オペレーターは、変数間の共分散と相関も決定する多変量モデリング オペレーターです。ただし、変数のマッピングを縮小された主成分空間に適用することで、さらに一歩進んでいます。

相関と共分散の詳細については、「相関と共分散」を参照してください。

入力

前のオペレーターからのデータセット。

値が不正または欠落しています
- TIBCO Data Science - Team Studio では、相関分析ではすべての Null 値がフィルタリングされます。

制限事項

このアルゴリズムは、数値データに対して実行される場合にのみ関係します。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム 相関関係を計算する必要がある数値列。

出力

ビジュアル出力
相関係数表。各係数値は、2 つの変数が互いにどの程度関連しているかを示す尺度を提供します。列がそれ自体と比較されている場合、値は 1 です。負の値は、反対の負の関係を意味します (つまり、一方の値が上がると、他方の値が下がります)。

ノート: これらの値は、線形回帰 (カラム名を従属変数とする) の相関係数に相当します。この出力は、たとえば、線形回帰モデルにどの変数を含めるかを決定する場合に役立ちます。
データ出力
なし。これはターミナル オペレーターです。