相関 (HD)
選択したカラムの各ペア間の相関を計算することにより、相互に相関分析するためにデータセット内の 2 つ以上の数値型属性 (列) を指定するために使用します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | エクスプローラ |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | MapReduce |
アルゴリズム
2 つの変数 (X と Y) 間の共分散は、次の式に示すように計算されます。
ここで、
と
は、それぞれ X と Y の平均値です。
相関関係は、次の式に示すように、共分散を正規化することによって計算されます。
相関と共分散、およびそれらを記述するアルゴリズムの詳細については、「相関と共分散」を参照してください。
入力
前のオペレーターからのデータセット。
制限事項
このアルゴリズムは、数値データに対して実行される場合にのみ関係します。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| カラム | 相関または共分散を計算する必要がある数値列。 |
| グループ・バイ | 1 つ以上のグループ・バイカラムを選択すると、オペレーターはグループ・バイカラムの値のすべての組み合わせに対して個別の相関 (または共分散) 行列を計算します。 1 つ以上のグループ・バイカラムを選択できます。 ノート: グループ・バイ カラムの選択は、メインの [カラム] 選択と重複することはできません。 |
| 計算 | [相関] (デフォルト) または [共分散] を計算するかどうかを指定します。 相関は正規化された共分散であり、任意の変数とそれ自体の正の倍数の間の相関が常に 1 になるようにスケーリングされます。 |
| 結果を保存しますか? | 結果を保存するかどうかを指定します。
|
| 結果ロケーション | オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。 |
| 結果名 | 結果を保存するファイルの名前。 |
| 上書き | そのパスとファイル名の既存のデータを削除するかどうかを指定します。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 高度な Spark 設定の自動最適化 |
|
出力
例
次の例は、アヤメの花のクラスごとのさまざまなグループに対する Hadoop 相関行列と対応する共分散行列出力の両方を示しています。相関属性をそれ自体と比較すると、結果として得られる相関係数値は 1 になることに注意してください (これは共分散データの場合には当てはまりません)。