PCA (DB)
直交変換を使用して、相関している可能性がある変数の一連の観測値を、相関していない変数 (主成分) の値のセットに変換します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | なし |
アルゴリズム
PCA (主成分分析) は、データを新しい座標系に変換する直交線形変換であり、データの投影による最大の分散が最初の座標 (最初の主成分と呼ばれます) にあり、2 番目に大きな分散は 1 番目の座標にあります。 2 番目の座標、3 番目の座標、3 番目の座標は、行数に達するか、事前に設定された最大主成分しきい値に達するまで続きます。
アルパイン PCA オペレーターは、データ共分散行列 Σ (または相関行列 R) の固有値分解を実装します。
- 各主成分は元の変数の線形結合です。
- 係数 (負荷) は、単位長の共分散行列 Σ (または相関行列 R) の固有ベクトル (v1、v2、...vp) です。
- 固有値 (λ1、λ2、...λp) は、それに関連付けられた主成分の寄与を示します。
- 主成分は、分散の寄与に応じて降順で並べ替えられます。
- ユーザーは累積寄与度に応じて主成分の数を選択できます (∑ij=1λj/∑pK=1λK)。
詳細については、『 Principal Component Analysis, (1986), Joliffe, I.T. 』を参照してください。
追加の参考資料:
- Jerome Friedman, Trevor Hastie, Robert Tibshirani (2008), The Elements of Statistical Learning Data Mining, Inference and Prediction Chapter 3: "Linear Methods for Regression"
- Joliffe, I.T. (1986), Principal Component Analysis, New York, Springer
- Wu, W., Massart, D.L., and de Jong, S. (1997), "The Kernel PCA Algorithms for Wide Data. Part I: Theory and Algorithms" Chemometrics and Intelligent Laboratory Systems, 36, 165-172.
入力
前のオペレーターからのデータセット。
構成
出力
行列変換で使用される固有値を提供します。
- 初期変数カラム: PCA オペレーターに渡された初期変数列が、導出された各主成分への固有ベクトル変換に対するその変数の寄与の大きさの値とともに表示されます。
- alpine_pcadataindex: 導出された各主成分に固有の番号を提供する固有ベクトル インデックス番号。
- alpine_pcaevalue: その主成分の固有値。
- alpine_pcacumvl: 定義された主成分についてこの固有ベクトルが説明する変動の割合。
- alpine_pcatotalcumvl: 定義された主成分についてこの固有ベクトルが説明する変動の累積分率。
新しい縮小された主成分データセットのサマリーを示します。
alpine_pcaattr[0-13]+: 新しく導出された各主成分カラムが、新しい変換されたデータセットの値とともに提供されます。この場合、数百の変数を含むソース Iris データセットは 13 個の主成分変数のみに減らされ、pcaOperatorResultsIris として保存されます。 (以下のフロー例を参照してください。)
キャリーオーバー カラム: PCA オペレーター構成で指定された元のデータセットからのキャリーオーバー カラム (必要な一意の ID キーや次のモデルで予測する従属変数など) がここに表示されます。この例では、「クラス」カラムが引き継がれ、次のアルパイン フォレストモデルで使用されます。
データベースの PCA オペレーターは、技術的にはターミナル オペレーターです。つまり、ワークフロー内で他のオペレーターがこのオペレーターに直接従うことはありません。ただし、PCA オペレーターは、主成分結果 (および固有値出力の詳細) を 2 つのデータベース テーブルに保存し、該当する場合は、新しいワークフローのデータ ソースとしてアクセスできます。以下の例は、データベース PCA オペレーターが pcaOperatorResultsIris および pcaOperatoreEigenOutputIris として保存された結果を示しています。この表はワークフローに取り込まれ、導出された主成分は、例えばアルパイン フォレスト オペレーターに供給され、PCA オペレーターが作成した変数の縮小セットが十分正確なモデルを提供するかどうかを理解するために、混同行列で分類結果を分析することができます。
例