正規化 (DB)

入力データセットの選択されたカラムに対して正規化を実行します。正規化とは、異なるスケールで測定された値を概念的に共通のスケールに調整することを意味します。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降を使用するワークフローでも使用できます。

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし
ノート: 正規化 (DB) オペレーターはデータベース データのみを対象とします。Hadoop データの場合は、正規化 (HD) オペレーターを使用します。

アルゴリズム

正規化はさまざまな方法で実行できます。

  • ユーザー定義の最小値と最大値を指定します。
  • Z 変換による (たとえば、平均 0、分散 1)。
  • それぞれの属性の平均または合計の割合としての変換による。

選択内容は、選択できる 4 つの正規化タイプに変換されます。

  • Z 変換。
  • 比率変換。
  • 範囲変換。
  • 平均による除算変換。

各タイプの定義については、「構成」の「メソッド」を参照してください。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
メソッド 使用する正規化方法。

オプション:

  • 平均による除算変換: サンプルの平均によって計算します。
  • 比例変換: サンプルの合計によって計算します。
  • Z 変換: サンプルの平均と分散によって計算します。
  • 範囲変換: サンプルの最小値と最大値によって計算します。

最小範囲 範囲変換の最小値を指定します。
最大射程 範囲変換の最大値を指定します。
カラム [カラム名] をクリックすると、正規化するカラムに使用できる数値カラムを選択するためのダイアログが開きます。
出力タイプ
  • [テーブル] はデータベース テーブルを出力します。 [テーブル] を指定すると、[ストレージ パラメーター] が有効になります。
  • [ビュー] はデータベース ビューを出力します。
出力スキーマ 出力テーブルまたはビューのスキーマ。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
ストレージパラメーター オペレーター出力の詳細なデータベース設定。 [テーブル] 出力でのみ使用できます。

詳細については、「ストレージ パラメーター ダイアログ」を参照してください。

存在する場合は削除 既存のテーブルを上書きするかどうかを指定します。
  • はい - その名前のテーブルが存在する場合、結果を保存する前にテーブルが削除されます。
  • いいえ - その名前のテーブルが存在する場合、結果ウィンドウにエラー メッセージが表示されます。

出力

ビジュアル出力
表示される出力テーブルまたはビューのデータ行 (最大 200 行のデータ)。

データ出力
正規化されたデータのデータセット。