正規化 (HD)

入力データセットの選択されたカラムに対して正規化を実行します。正規化とは、異なるスケールで測定された値を概念的に共通のスケールに調整することを意味します。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Pig
ノート: 正規化 (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、正規化 (DB) オペレーターを使用します。

アルゴリズム

正規化はさまざまな方法で実行できます。

  • ユーザー定義の最小値と最大値を指定します。
  • Z 変換による (たとえば、平均 0、分散 1)。
  • それぞれの属性の平均または合計の割合としての変換による。

選択内容は、選択できる 4 つの正規化タイプに変換されます。

  • Z 変換。
  • 比率変換。
  • 範囲変換。
  • 平均による除算変換。

各タイプの定義については、「構成」の「メソッド」を参照してください。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
メソッド 使用する正規化方法。
  • 平均による除算変換: サンプルの平均によって計算します。
  • 比例変換: サンプルの合計によって計算します。
  • Z 変換: サンプルの平均と分散によって計算します。
  • 範囲変換: サンプルの最小値と最大値によって計算します。
最小範囲 範囲変換の最小値を指定します。
最大射程 範囲変換の最大値を指定します。
カラム [カラムの選択] をクリックすると、正規化するカラムに使用可能な数値カラムを選択するためのダイアログが開きます。
結果を保存しますか? 結果を保存するかどうかを指定します。
  • true - 結果が保存されます。
  • false - データセットは保存せずに次のオペレーターに渡されます。
結果ロケーション オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。
結果名 結果を保存するファイルの名前。
上書き そのパスとファイル名の既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
Spark を使用する [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
表示される出力テーブルまたはビューのデータ行 (最大 200 行のデータ)。

データ出力
正規化されたデータのデータセット。