相関 (HD)

選択したカラムの各ペア間の相関を計算することにより、相互に相関分析するためにデータセット内の 2 つ以上の数値型属性 (列) を指定するために使用します。

相関関係

情報一覧

パラメーター

説明
カテゴリー エクスプローラ
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール MapReduce

ノート: 相関 (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、相関 (DB) オペレーターを使用します。

アルゴリズム

2 つの変数 (XY) 間の共分散は、次の式に示すように計算されます。

共分散式

ここで、X の平均Y の平均 は、それぞれ XY の平均値です。

相関関係は、次の式に示すように、共分散を正規化することによって計算されます。

相関式

ノート: 主成分分析 オペレーターは、変数間の共分散と相関も決定する多変量モデリング オペレーターです。ただし、変数のマッピングを縮小された主成分空間に適用することで、さらに一歩進んでいます。

相関と共分散、およびそれらを記述するアルゴリズムの詳細については、「相関と共分散」を参照してください。

入力

前のオペレーターからのデータセット。

値が不正または欠落しています
- TIBCO Data Science - Team Studio では、相関分析ではすべての Null 値がフィルタリングされます。

制限事項

このアルゴリズムは、数値データに対して実行される場合にのみ関係します。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム 相関または共分散を計算する必要がある数値列。
グループ・バイ 1 つ以上のグループ・バイカラムを選択すると、オペレーターはグループ・バイカラムの値のすべての組み合わせに対して個別の相関 (または共分散) 行列を計算します。 1 つ以上のグループ・バイカラムを選択できます。

ノート: グループ・バイ カラムの選択は、メインの [カラム] 選択と重複することはできません。

計算 [相関] (デフォルト) または [共分散] を計算するかどうかを指定します。

相関は正規化された共分散であり、任意の変数とそれ自体の正の倍数の間の相関が常に 1 になるようにスケーリングされます。

結果を保存しますか? 結果を保存するかどうかを指定します。
  • true - 結果が保存されます。
  • false - データセットは保存せずに次のオペレーターに渡されます。
結果ロケーション オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。
結果名 結果を保存するファイルの名前。
上書き そのパスとファイル名の既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
指定されたグループバイ値の組み合わせごとに 1 つの相関 (または共分散) 行列。

ノート: グループ・バイ要件が指定されていない場合、行列は 1 つだけ出力されます。

データ出力
Hadoop データセット分析の場合、ビジュアル出力もその出力として後続のオペレーターに渡されます。

次の例は、アヤメの花のクラスごとのさまざまなグループに対する Hadoop 相関行列と対応する共分散行列出力の両方を示しています。相関属性をそれ自体と比較すると、結果として得られる相関係数値は 1 になることに注意してください (これは共分散データの場合には当てはまりません)。