正規化 (HD)
入力データセットの選択されたカラムに対して正規化を実行します。正規化とは、異なるスケールで測定された値を概念的に共通のスケールに調整することを意味します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Pig |
ノート: 正規化 (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、正規化 (DB) オペレーターを使用します。
アルゴリズム
正規化はさまざまな方法で実行できます。
- ユーザー定義の最小値と最大値を指定します。
- Z 変換による (たとえば、平均 0、分散 1)。
- それぞれの属性の平均または合計の割合としての変換による。
選択内容は、選択できる 4 つの正規化タイプに変換されます。
- Z 変換。
- 比率変換。
- 範囲変換。
- 平均による除算変換。
各タイプの定義については、「構成」の「メソッド」を参照してください。
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| メソッド | 使用する正規化方法。
|
| 最小範囲 | 範囲変換の最小値を指定します。 |
| 最大射程 | 範囲変換の最大値を指定します。 |
| カラム | [カラムの選択] をクリックすると、正規化するカラムに使用可能な数値カラムを選択するためのダイアログが開きます。 |
| 結果を保存しますか? | 結果を保存するかどうかを指定します。
|
| 結果ロケーション | オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。 |
| 結果名 | 結果を保存するファイルの名前。 |
| 上書き | そのパスとファイル名の既存のデータを削除するかどうかを指定します。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| Spark を使用する | [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。 |
| 高度な Spark 設定の自動最適化 |
|
出力
ビジュアル出力
表示される出力テーブルまたはビューのデータ行 (最大 200 行のデータ)。

データ出力
正規化されたデータのデータセット。