正規化

このオペレーターは、入力データセットの選択されたカラムに対して正規化を実行します。正規化とは、異なるスケールで測定された値を概念的に共通のスケールに調整することを意味します。

正規化オペレーターのアイコン

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

正規化は次の方法で実行できます。

  • ユーザー定義の最小値と最大値を指定します。
  • Z 変換による (たとえば、平均 0、分散 1)。
  • それぞれの属性の平均または合計の割合としての変換による。

選択内容は、次の 4 つの可能な正規化タイプに変換されます。

  • Z 変換。
  • 比率変換。
  • 範囲変換。
  • 平均による除算変換。

入力

入力は単一の表形式のデータセットです。

不正な値または欠落している値
Null 値は許されず、エラーとなります。

構成

次の表に、正規化オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
メソッド 使用する正規化方法を指定します。次の値が使用可能です。

  • 平均による除算変換: サンプルの平均で計算します。
  • 比例変換: サンプルの合計によって計算します。
  • Z 変換: サンプルの平均と分散によって計算します。
  • 範囲変換: サンプルの最小値と最大値によって計算します。

最小範囲 範囲変換の最小値を指定します。
最大射程 範囲変換の最大値を指定します。
カラム 使用可能な数値カラムを選択して、正規化するカラムを指定します。 [カラム名] をクリックして、使用可能な数値カラムを選択するダイアログを開きます。
出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
  • 出力: 正規化されたデータのデータセットの出力を表示するテーブル。

次の例では、正規化オペレーターを使用して、指定されたデータセットの正規化されたデータを表示します。

正規化オペレーターのワークフロー
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは天候、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • メソッド: 比例変換

  • カラム: 天候、湿度、風、プレー、気温

  • 結果を保存: はい

出力
次の図は、golf データセットのパラメーター設定の出力を示しています。
正規化オペレーターの出力タブ