外れ値置換 (DB)

数値カラムの値の範囲を減らします。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール DB

外れ値置換オペレーターの仕組みの詳細については、「数値データの外れ値」を参照してください。

ノート: 外れ値置換 (DB) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、外れ値置換 (HD) オペレーターを使用します。

入力

このオペレーターは表形式のデータセットに対して機能します。変換関数は数値列にのみ適用でき、数値入力カラムの型は出力に保持されます。

値が不正または欠落しています
数値カラムの文字列など、ダーティ データを含む行は、データが読み込まれるときに削除されます。データが読み込まれた後、オペレーターは、選択した数値列に Null 値を含むすべての行をフィルターで除外します。選択されていないカラムのいずれかに Null 値がある行は削除されません。削除された行は、[サマリー] タブにレポートされます。 [Null データをファイルに書き込む] パラメーターの値が [はい] に設定されている場合、Null データがあるために削除された行は外部ファイルに書き込まれます (その場所は サマリー タブで報告されます)。

制限事項

数値カラムを含む任意のデータセットを使用できます。このオペレーターは、選択されたカラムの数とカラムのカーディナリティが増加するにつれて遅くなります。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム 変換する数値列。
下限 (%) 置換する分布の左端 (各カラムの範囲の下端) の値のパーセンテージを表すダブル。

下限しきい値 x下限の式 として計算されます。

上限 (%) 置換する各カラムの元の分布の右端 (各カラムの範囲の上限) の値のパーセンテージを表すダブル。

上限しきい値 y上限の式 として計算されます。

出力タイプ
  • [テーブル] はデータベース テーブルを出力します。 [テーブル] を指定すると、[ストレージ パラメーター] が有効になります。
  • [ビュー] はデータベース ビューを出力します。
出力スキーマ 出力テーブルまたはビューのスキーマ。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
存在する場合は削除 既存のテーブルを上書きするかどうかを指定します。
  • はい - その名前のテーブルが存在する場合、結果を保存する前にテーブルが削除されます。
  • いいえ - その名前のテーブルが存在する場合、結果ウィンドウにエラー メッセージが表示されます。

出力

ビジュアル出力
オペレーターには 2 つの出力タブがあります。 1 つ目は出力データで、次のオペレーターに渡されます。 2 つ目は、どのパラメーターが選択されたか、どれだけの Null データが削除されたか、結果がどこに書き込まれたかを説明するサマリーです。
  • 出力: 上で説明したように、外れ値が置き換えられたテーブル。
  • サマリー: 入力データと、Null データのために削除された行の説明。また、結果が保存される場所も示されます。

データ出力
オペレーターは、入力データと同じ表形式のデータセットを出力しますが、選択された数値カラムの値の一部が置き換えられます。詳細については、「数値データの外れ値」を参照してください。