PCA 適用

直交変換を使用して、相関している可能性がある変数の一連の観測値を、相関していない変数 (主成分) の値のセットに変換します。

情報一覧

パラメーター

説明
カテゴリー 予測
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール MapReduce

ノート: このオペレーターは非推奨であり、将来のリリースでは削除される予定です。

PCA 適用オペレーターは、PCA オペレーターと組み合わせて使用されます。PCA (主成分分析) は、いくつかの量的変数間の関係を調べるための多変量手法です。PCA モデリングと PCA オペレーター構成の詳細については、データ ソースに応じて、PCA (DB) または PCA (HD) を参照してください。

PCA (HD) オペレーターは、主成分行列変換を決定するためにデータを分析しますが、削減された変数セットを後続のオペレーターに渡す前に、PCA 適用オペレーターが実際にデータを変換する必要があります。

ノート: データベース ワークフローの場合、PCA オペレーターは主成分のデータを分析し、PCA オペレーターに渡された元のデータに行列変換を「適用」します。ただし、Hadoop ワークフローの場合、PCA と PCA 適用オペレーターは別個のオペレーターであるため、ユーザーは派生行列変換を元のトレーニング データセットに適用するか、新しいデータセット (同じ変数を使用) に適用するかを選択できます。

アルゴリズム

PCA 適用オペレーターは、PCA オペレーターによって定義された主成分行列変換アルゴリズムを入力データ ソースに対して適用します。

入力

マトリックス変換をソース データセットに適用する場合、他の入力は必要ありません。ただし、行列変換を新しいデータ ソースに対して適用する場合は、変換されるデータ ソースも PCA 適用オペレーターへの入力である必要があります。

PCA 適用オペレーターへの入力に可能な 2 つのフローの組み合わせを、Iris というデータセット ソースの例について以下に示します。PCA 適用オペレーターは、トレーニング iris.txt データセットまたは iris.txt-NEW データセットのいずれかに対して適用されます。

制限事項

PCA 適用オペレーターは、PCA オペレーターを入力として使用し、Hadoop データ ソースに対して適用される場合にのみ使用できます。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
機能の目標数 定義する主成分の数を指定します。この値は、関連する PCA オペレーターに設定された 分散モードの最大ランク パラメーター値以下である必要があります。詳細については、「主成分分析」を参照してください。
ノート: この値は、PCA オペレーターに渡されたソース データセット内のカラムの数以下である必要があります。

デフォルト値: 5

キャリーオーバー カラム 元の入力データ (PCA オペレーターに渡された) のカラムを「未変換」のままにして、PCA 適用オペレーターの出力に含めることを選択できます。

この場合、[キャリーオーバー カラム] ボタンをクリックして、結果テーブルに保持するカラムを選択するダイアログを開きます。

結果を保存しますか? 結果を保存するかどうかを指定します。
  • true - 結果が保存されます。
  • false - データセットは保存せずに次のオペレーターに渡されます。
結果ロケーション オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。
結果名 結果を保存するファイルの名前。
上書き そのパスとファイル名の既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプションは次のとおりです。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプションは次のとおりです。

  • Deflate
  • Snappy
  • 圧縮なし

出力

ビジュアル出力
新しい縮小主成分データセットのサマリー。
alpine_pcaattr[0-5]+
新しく導出された各主成分列が、新しい変換されたデータセットの値とともに提供されます。この場合、数百の変数を含むソース Iris データセットは 5 つの主成分変数のみに削減され、Hadoop ファイル形式で保存されます。
キャリーオーバー カラム
次のモデルで予測するために必要な一意の ID キーや従属変数など、PCA オペレーター構成で指定された元のデータセットからのキャリーオーバー カラムがここに表示されます。

この例では、「クラス」列が引き継がれ、次のアルパイン フォレストモデルで使用されます。

データ出力

PCA 適用オペレーターは、PCA オペレーターから受け取った行列変換アルゴリズムを入力データセットに適用し、変換された主成分データセットを出力します。したがって、PCA 適用オペレーターの後には、入力データセットを受け入れる任意のオペレーターを直接続けることができます。

次の例は、Hadoop ワークフロー内で PCA オペレーターと PCA 適用オペレーターを一緒に示し、その出力が アルパイン フォレスト オペレーターに渡されることを示しています。