PCA
主成分分析 (PCA) オペレーターは直交変換を生成し、相関している可能性のある変数の観測値のセットを相関のない変数の値のセットに変換します。
情報一覧
ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
PCA は、データを新しい座標系に変換する直交線形変換であり、データの投影による最大の分散が最初の座標 (最初の主成分と呼ばれます) に存在し、2 番目に最大の分散が 2 番目の座標に存在するようになります。 3 番目の座標は、座標の数に達するか、事前に設定された最大主成分しきい値に達するまで続きます。
このオペレーターは、主成分を生成する前に、選択したカラムに中心とスケールの変換を適用します。また、完全な数の主成分も生成します。
入力
入力は単一の表形式のデータセットです。
不正な値または欠落している値
特定の行のカラムで Null 値が検出された場合、PCA モデルをトレーニングする前に行全体が削除されます。
構成
次の表に、PCA オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 連続予測子 | 数値データカラムを独立したカラムとして指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。 |
| 利用可能なすべてのカラムを予測子として使用する | [はい] に設定すると、オペレーターはワイルドカード機能を有効にします。 [いいえ] に設定すると、ユーザーは連続予測値を少なくとも 1 つ選択する必要があります。 |
出力
ビジュアル出力
- 成分: 主成分の生成に使用される成分行列が表示されます。
- 分散: 各主成分によって説明される分散に関する情報 (降順) と、説明される分散の累積合計が取得されます。
後続のオペレーターへの出力
予測器 の予測器オペレーターで使用する場合、出力の成分数は入力カラム数と同じになります。オペレーターで使用できるモデル オブジェクト。PCA オペレーターは、変換されたデータセットではなく主成分を出力します。データセットに対して変換を実行するには、PCA オペレーターの後に 予測器 オペレーターが続く必要があります。このオペレーターは、p 個の変換されたカラムを追加します。p は選択されたカラムの数です。次に、変換は、ソース トレーニング データセットまたは同じ変数を使用した新しい入力データセットに対して処理されます。
PCA オペレーターを TIBCO Data Science - Team Studio の 予測器 オペレーターで使用する場合、出力の成分数は入力カラム数と同じになります。ユーザーは、ビジュアル出力の [分散] タブを確認して、捕捉する分散の量と、その結果格納する主成分の数を特定する必要があります。この情報に基づいて、ユーザーは 動的カラム フィルター オペレーターを 予測器 オペレーターの出力に付加して、必要な変数のみを保持できます。
モデル検証 オペレーターでは使用できないモデル オブジェクト。
例
次の例は、PCA オペレーターを示しています。
データ
demographics: このデータセットには次の情報が含まれています。
- がく片の長さ
- がく片の幅
- 花びらの長さ
- 花びらの幅
パラメーター設定
demographics データセットのパラメーター設定は次のとおりです。
-
連続予測子: sepal_length,sepal_width,petal_length,petal_width
-
使用可能なすべてのカラムを予測子として使用する: いいえ
結果
これらの図は、demographics データセットの前述のパラメーター設定の結果を示しています。
コンポーネント
分散