PCA 適用
直交変換を使用して、相関している可能性がある変数の一連の観測値を、相関していない変数 (主成分) の値のセットに変換します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | 予測 |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | MapReduce |
PCA 適用オペレーターは、PCA オペレーターと組み合わせて使用されます。PCA (主成分分析) は、いくつかの量的変数間の関係を調べるための多変量手法です。PCA モデリングと PCA オペレーター構成の詳細については、データ ソースに応じて、PCA (DB) または PCA (HD) を参照してください。
PCA (HD) オペレーターは、主成分行列変換を決定するためにデータを分析しますが、削減された変数セットを後続のオペレーターに渡す前に、PCA 適用オペレーターが実際にデータを変換する必要があります。
アルゴリズム
PCA 適用オペレーターは、PCA オペレーターによって定義された主成分行列変換アルゴリズムを入力データ ソースに対して適用します。
入力
マトリックス変換をソース データセットに適用する場合、他の入力は必要ありません。ただし、行列変換を新しいデータ ソースに対して適用する場合は、変換されるデータ ソースも PCA 適用オペレーターへの入力である必要があります。
PCA 適用オペレーターへの入力に可能な 2 つのフローの組み合わせを、Iris というデータセット ソースの例について以下に示します。PCA 適用オペレーターは、トレーニング iris.txt データセットまたは iris.txt-NEW データセットのいずれかに対して適用されます。
制限事項
PCA 適用オペレーターは、PCA オペレーターを入力として使用し、Hadoop データ ソースに対して適用される場合にのみ使用できます。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 機能の目標数 | 定義する主成分の数を指定します。この値は、関連する PCA オペレーターに設定された 分散モードの最大ランク パラメーター値以下である必要があります。詳細については、「主成分分析」を参照してください。 ノート: この値は、PCA オペレーターに渡されたソース データセット内のカラムの数以下である必要があります。 デフォルト値: 5 |
| キャリーオーバー カラム | 元の入力データ (PCA オペレーターに渡された) のカラムを「未変換」のままにして、PCA 適用オペレーターの出力に含めることを選択できます。 この場合、[キャリーオーバー カラム] ボタンをクリックして、結果テーブルに保持するカラムを選択するダイアログを開きます。 |
| 結果を保存しますか? | 結果を保存するかどうかを指定します。
|
| 結果ロケーション | オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。 |
| 結果名 | 結果を保存するファイルの名前。 |
| 上書き | そのパスとファイル名の既存のデータを削除するかどうかを指定します。
|
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプションは次のとおりです。
利用可能な Avro 圧縮オプションは次のとおりです。
|
出力
この例では、「クラス」列が引き継がれ、次のアルパイン フォレストモデルで使用されます。
PCA 適用オペレーターは、PCA オペレーターから受け取った行列変換アルゴリズムを入力データセットに適用し、変換された主成分データセットを出力します。したがって、PCA 適用オペレーターの後には、入力データセットを受け入れる任意のオペレーターを直接続けることができます。
例
次の例は、Hadoop ワークフロー内で PCA オペレーターと PCA 適用オペレーターを一緒に示し、その出力が アルパイン フォレスト オペレーターに渡されることを示しています。