外れ値置換 (DB)
数値カラムの値の範囲を減らします。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | DB |
外れ値置換オペレーターの仕組みの詳細については、「数値データの外れ値」を参照してください。
ノート: 外れ値置換 (DB) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、外れ値置換 (HD) オペレーターを使用します。
入力
このオペレーターは表形式のデータセットに対して機能します。変換関数は数値列にのみ適用でき、数値入力カラムの型は出力に保持されます。
値が不正または欠落しています
数値カラムの文字列など、ダーティ データを含む行は、データが読み込まれるときに削除されます。データが読み込まれた後、オペレーターは、選択した数値列に Null 値を含むすべての行をフィルターで除外します。選択されていないカラムのいずれかに Null 値がある行は削除されません。削除された行は、[サマリー] タブにレポートされます。 [Null データをファイルに書き込む] パラメーターの値が [はい] に設定されている場合、Null データがあるために削除された行は外部ファイルに書き込まれます (その場所は サマリー タブで報告されます)。
制限事項
数値カラムを含む任意のデータセットを使用できます。このオペレーターは、選択されたカラムの数とカラムのカーディナリティが増加するにつれて遅くなります。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| カラム | 変換する数値列。 |
| 下限 (%) | 置換する分布の左端 (各カラムの範囲の下端) の値のパーセンテージを表すダブル。 下限しきい値 x は |
| 上限 (%) | 置換する各カラムの元の分布の右端 (各カラムの範囲の上限) の値のパーセンテージを表すダブル。 上限しきい値 y は |
| 出力タイプ |
|
| 出力スキーマ | 出力テーブルまたはビューのスキーマ。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 存在する場合は削除 | 既存のテーブルを上書きするかどうかを指定します。
|
出力
ビジュアル出力
オペレーターには 2 つの出力タブがあります。 1 つ目は出力データで、次のオペレーターに渡されます。 2 つ目は、どのパラメーターが選択されたか、どれだけの Null データが削除されたか、結果がどこに書き込まれたかを説明するサマリーです。
- 出力: 上で説明したように、外れ値が置き換えられたテーブル。

- サマリー: 入力データと、Null データのために削除された行の説明。また、結果が保存される場所も示されます。

データ出力
オペレーターは、入力データと同じ表形式のデータセットを出力しますが、選択された数値カラムの値の一部が置き換えられます。詳細については、「数値データの外れ値」を参照してください。
として計算されます。
として計算されます。