主成分分析 (PCA)
PCA (主成分分析) は、いくつかの量的変数間の関係を調べるための多変量解析'主成分分析'手法です。直交変換を使用して、相関している可能性がある変数の一連の観測値を、相関していない変数 (主成分) の値のセットに変換します。
データベース データ ソースでの PCA の使用については、「PCA (DB)」を参照してください。Hadoop データ ソースでの PCA の使用については、「PCA (HD)」を参照してください。TIBCO Data Virtualization データ ソースでの PCA 使用については、「PCA」を参照してください。
PCA モデリング手法を使用する主な理由は、大規模なデータセットの元の N 次元から、より小さい n 次元の新しいセットへのマッピングを作成することです (ここで、 n は通常、N よりもかなり小さい数です)。
- 主成分は、新しい次元の軸 (または軸に沿った単位ベクトル) を表します。
- 主成分は、最初の成分に元のデータセットからの変動が最も多く含まれるように順序付けされます。
- 言い換えれば、元のデータセットが最初のコンポーネントのみにマッピングされる場合、他のコンポーネントにマッピングする場合と比較して、失われる情報は最小限になります。
属性の初期セットのサブセットを保持することで属性セットのサイズを縮小する属性サブセット選択とは異なり、PCA は代替のより小さい変数セットを作成することによって属性の本質を「結合」します。したがって、初期データセットはこの小さなセットに投影されます。
PCA では、より少ない主成分を使用して分析の元の変数を置き換えます。これにより、以前は疑われなかった関係が明らかになり、通常では生じない解釈が可能になります。
- 多くの場合、PCA が (次元削減の方法として) データ分析の最初のステップとなり、その後に判別分析、クラスター分析、またはその他の多変量技術が続きます。
- したがって、ほとんどの情報を含む主成分を見つけることが重要です。
- 次の図は、いくつかのデータ ポイントの主成分を 2 次元で示しています。最大の主成分は、データの最大の変動を示す軸に沿って伸び、最初の主成分を表します。最小の主成分は、データの変動が最小であることを示します。
PCA ワークフローの作成は、分析がデータベースに対して行われるか Hadoop データ ソースに対して行われるかによって次のように異なります。
- データベースの PCA オペレーターは、主成分のデータを分析し、データ マッピングを定義し、また、他のモデリング オペレーターに直接渡されるデータを (マッピングを適用することで) 変換します。
- Hadoop の PCA オペレーターは、主成分を決定するためにデータを分析し、データ マッピングを定義しますが、縮小された変数セットを他のモデリング オペレーターに渡す前に、(マッピングを適用することによって) PCA 適用オペレーターがデータを変換する必要があります。
- Hadoop 対応 PCA 適用オペレーターはデータ マッピングを適用します。これは、新しい更新されたデータセット (同じカラム名を持つ) またはソース トレーニング データセットのいずれかに適用できます (一方、データベースの PCA オペレーターはトレーニング データセットにのみ適用できます)。