正規化
このオペレーターは、入力データセットの選択されたカラムに対して正規化を実行します。正規化とは、異なるスケールで測定された値を概念的に共通のスケールに調整することを意味します。
情報一覧
ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
正規化は次の方法で実行できます。
- ユーザー定義の最小値と最大値を指定します。
- Z 変換による (たとえば、平均 0、分散 1)。
- それぞれの属性の平均または合計の割合としての変換による。
選択内容は、次の 4 つの可能な正規化タイプに変換されます。
- Z 変換。
- 比率変換。
- 範囲変換。
- 平均による除算変換。
入力
入力は単一の表形式のデータセットです。
不正な値または欠落している値
Null 値は許されず、エラーとなります。
構成
次の表に、正規化オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| メソッド | 使用する正規化方法を指定します。次の値が使用可能です。
|
| 最小範囲 | 範囲変換の最小値を指定します。 |
| 最大射程 | 範囲変換の最大値を指定します。 |
| カラム | 使用可能な数値カラムを選択して、正規化するカラムを指定します。 [カラム名] をクリックして、使用可能な数値カラムを選択するダイアログを開きます。 |
| 出力スキーマ | 出力テーブルまたはビューのスキーマを指定します。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 結果の保存 | [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。 |
出力
ビジュアル出力
- 出力: 正規化されたデータのデータセットの出力を表示するテーブル。
例
次の例では、正規化オペレーターを使用して、指定されたデータセットの正規化されたデータを表示します。
データ
golf: このデータセットには次の情報が含まれています。
- 複数のカラム、ここでは天候、気温、風、湿度、プレー。
- 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
-
メソッド: 比例変換
-
カラム: 天候、湿度、風、プレー、気温
-
結果を保存: はい
出力
次の図は、golf データセットのパラメーター設定の出力を示しています。