外れ値置換 (HD)

数値カラムの値の範囲を減らします。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

外れ値置換オペレーターの仕組みの詳細については、「数値データの外れ値」を参照してください。

ノート: 外れ値置換 (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、外れ値置換 (DB) オペレーターを使用します。

入力

このオペレーターは、HDFS 上の表形式のデータセットに対して機能します。変換関数は数値列にのみ適用でき、数値入力カラムの型は出力に保持されます。

値が不正または欠落しています
数値カラムの文字列など、ダーティ データを含む行は、データが読み込まれるときに削除されます。データが読み込まれた後、オペレーターは、選択した数値列に Null 値を含むすべての行をフィルターで除外します。選択されていないカラムのいずれかに Null 値がある行は削除されません。削除された行は、[サマリー] タブにレポートされます。 [Null データをファイルに書き込む] パラメーターの値が [はい] に設定されている場合、Null データがあるために削除された行は外部ファイルに書き込まれます (その場所は サマリー タブで報告されます)。

制限事項

数値カラムを含む任意のデータセットを使用できます。このオペレーターは、選択されたカラムの数とカラムのカーディナリティが増加するにつれて遅くなります。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム 変換する数値列。
下限 (%) 置換する分布の左端 (各カラムの範囲の下端) の値のパーセンテージを表すダブル。

下限しきい値 x下限の式 として計算されます。

上限 (%) 置換する各カラムの元の分布の右端 (各カラムの範囲の上限) の値のパーセンテージを表すダブル。

上限しきい値 y上限の式 として計算されます。

Null データをファイルに書き込む

*必須

Null 値を含む行は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。

  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データは削除されますが、カウントされて結果 UI に表示されません。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。

  • 最大 1,000 行の Null 行をファイルに書き込む - Null 値データを削除し、そのデータの最初の 1,000 行を外部ファイルに書き込みます。

  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
オペレーターには 2 つの出力タブがあります。 1 つ目は出力データで、次のオペレーターに渡されます。 2 つ目は、どのパラメーターが選択されたか、どれだけの Null データが削除されたか、結果がどこに書き込まれたかを説明するサマリーです。
  • 出力: 上で説明したように、外れ値が置き換えられたテーブル。
  • サマリー: 入力データと、Null データのために削除された行の説明。また、結果が保存される場所も示されます。

データ出力
オペレーターは、入力データと同じ表形式のデータセットを出力しますが、選択された数値カラムの値の一部が置き換えられます。詳細については、「数値データの外れ値」を参照してください。この出力は、表形式のデータを必要とする Hadoop オペレーターの入力として機能する必要があります。