PCA (DB)

直交変換を使用して、相関している可能性がある変数の一連の観測値を、相関していない変数 (主成分) の値のセットに変換します。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし

アルゴリズム

PCA (主成分分析) は、データを新しい座標系に変換する直交線形変換であり、データの投影による最大の分散が最初の座標 (最初の主成分と呼ばれます) にあり、2 番目に大きな分散は 1 番目の座標にあります。 2 番目の座標、3 番目の座標、3 番目の座標は、行数に達するか、事前に設定された最大主成分しきい値に達するまで続きます。

アルパイン PCA オペレーターは、データ共分散行列 Σ (または相関行列 R) の固有値分解を実装します。

  • 各主成分は元の変数の線形結合です。
  • 係数 (負荷) は、単位長の共分散行列 Σ (または相関行列 R) の固有ベクトル (v1、v2、...vp) です。
  • 固有値 (λ1、λ2、...λp) は、それに関連付けられた主成分の寄与を示します。
  • 主成分は、分散の寄与に応じて降順で並べ替えられます。
  • ユーザーは累積寄与度に応じて主成分の数を選択できます (∑ij=1λj/∑pK=1λK)。

詳細については、『 Principal Component Analysis, (1986), Joliffe, I.T. 』を参照してください。

追加の参考資料:

  • Jerome Friedman, Trevor Hastie, Robert Tibshirani (2008), The Elements of Statistical Learning Data Mining, Inference and Prediction Chapter 3: "Linear Methods for Regression"
  • Joliffe, I.T. (1986), Principal Component Analysis, New York, Springer
  • Wu, W., Massart, D.L., and de Jong, S. (1997), "The Kernel PCA Algorithms for Wide Data. Part I: Theory and Algorithms" Chemometrics and Intelligent Laboratory Systems, 36, 165-172.

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート MADlib がデータベースにインストールされるスキーマ。MADlib は、入力データセットと同じデータベースにインストールする必要があります。 「madlib」スキーマがデータベースに存在する場合、このパラメーターはデフォルトで madlib になります。
分析タイプ 固有値分解を実行するために使用する行列のタイプ。

  • COV-POP (デフォルト): 未補正の共分散行列。これにより、中心化されていない、スケーリングされていないデータに対して PCA アルゴリズムが実装されます。
  • COV-SAM: 共分散行列。これは、中央に配置されているがスケーリングされていないデータに対して PCA アルゴリズムを実装します。
  • CORR: 相関行列。これにより、中心化およびスケーリングされたデータに対して PCA アルゴリズムが実装されます。

パーセント 主成分で説明される分散の割合のしきい値。これにより主成分の数が決まります。

  • 期待される値は 0 ~ 1 です。
  • 値が大きいほど、報告される主成分の数に直接関係します。

結果出力スキーマ 元のテーブルから変換された結果出力テーブルのスキーマ名。
結果出力テーブル 元のテーブルから変換された結果出力テーブルの名前。
結果出力テーブルの格納パラメーター 出力テーブルを生成できるオペレーターの場合、ストレージ パラメーター ダイアログを使用して、ストレージ方法と圧縮に関する追加パラメーターを指定できます。

参照: ストレージ パラメーター ダイアログ

存在する場合は削除 (結果)
  • [はい] (デフォルト) の場合、同じ名前の既存のテーブルを削除し、新しいテーブルを作成します。
  • [いいえ] の場合、フローを停止し、エラーが発生したことをユーザーに警告します。
固有値出力スキーマ 主成分のスコアを保存する出力テーブルのスキーマ名。
固有値出力テーブル 主成分のスコアを保存する出力テーブルの名前。
固有値出力テーブルのストレージ パラメーター 主成分のスコアを保存する出力テーブルの格納パラメーター。
存在する場合は削除 (固有値) 既存の固有値を上書きするかどうかを指定します。
  • はい (デフォルト) - その名前のエントリが存在する場合、結果を保存する前に削除されます。
  • いいえ - その名前のエントリが存在する場合、結果ウィンドウにエラー メッセージが表示されます。
カラム名 [カラム] をクリックして、PCA の手順から使用可能なカラムを選択するためのダイアログを開きます。
キャリーオーバー列 入力データのカラムを変換せずに出力に含めるように選択できます。これを行うには、[繰り越しカラム] をクリックして、結果テーブルに保持するカラムを選択するダイアログを開きます。

出力

ビジュアル出力
結果表

行列変換で使用される固有値を提供します。

  • 初期変数カラム: PCA オペレーターに渡された初期変数列が、導出された各主成分への固有ベクトル変換に対するその変数の寄与の大きさの値とともに表示されます。
  • alpine_pcadataindex: 導出された各主成分に固有の番号を提供する固有ベクトル インデックス番号。
  • alpine_pcaevalue: その主成分の固有値。
  • alpine_pcacumvl: 定義された主成分についてこの固有ベクトルが説明する変動の割合。
  • alpine_pcatotalcumvl: 定義された主成分についてこの固有ベクトルが説明する変動の累積分率。

出力テーブル

新しい縮小された主成分データセットのサマリーを示します。

alpine_pcaattr[0-13]+: 新しく導出された各主成分カラムが、新しい変換されたデータセットの値とともに提供されます。この場合、数百の変数を含むソース Iris データセットは 13 個の主成分変数のみに減らされ、pcaOperatorResultsIris として保存されます。 (以下のフロー例を参照してください。)

キャリーオーバー カラム: PCA オペレーター構成で指定された元のデータセットからのキャリーオーバー カラム (必要な一意の ID キーや次のモデルで予測する従属変数など) がここに表示されます。この例では、「クラス」カラムが引き継がれ、次のアルパイン フォレストモデルで使用されます。

データ出力
他のオペレーターがアクセスできる格納されたデータベース テーブル。

データベースの PCA オペレーターは、技術的にはターミナル オペレーターです。つまり、ワークフロー内で他のオペレーターがこのオペレーターに直接従うことはありません。ただし、PCA オペレーターは、主成分結果 (および固有値出力の詳細) を 2 つのデータベース テーブルに保存し、該当する場合は、新しいワークフローのデータ ソースとしてアクセスできます。以下の例は、データベース PCA オペレーターが pcaOperatorResultsIris および pcaOperatoreEigenOutputIris として保存された結果を示しています。この表はワークフローに取り込まれ、導出された主成分は、例えばアルパイン フォレスト オペレーターに供給され、PCA オペレーターが作成した変数の縮小セットが十分正確なモデルを提供するかどうかを理解するために、混同行列で分類結果を分析することができます。