外れ値置換 (HD)
数値カラムの値の範囲を減らします。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
外れ値置換オペレーターの仕組みの詳細については、「数値データの外れ値」を参照してください。
入力
このオペレーターは、HDFS 上の表形式のデータセットに対して機能します。変換関数は数値列にのみ適用でき、数値入力カラムの型は出力に保持されます。
制限事項
数値カラムを含む任意のデータセットを使用できます。このオペレーターは、選択されたカラムの数とカラムのカーディナリティが増加するにつれて遅くなります。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| カラム | 変換する数値列。 |
| 下限 (%) | 置換する分布の左端 (各カラムの範囲の下端) の値のパーセンテージを表すダブル。 下限しきい値 x は |
| 上限 (%) | 置換する各カラムの元の分布の右端 (各カラムの範囲の上限) の値のパーセンテージを表すダブル。 上限しきい値 y は |
| Null データをファイルに書き込む
*必須 |
Null 値を含む行は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。 ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
- 出力: 上で説明したように、外れ値が置き換えられたテーブル。

- サマリー: 入力データと、Null データのために削除された行の説明。また、結果が保存される場所も示されます。

として計算されます。
として計算されます。