数値データの外れ値

数値データには、指定されたパーセンタイルしきい値の範囲外にあるデータが含まれる場合があります。

外れ値置換 (Replace Outliers) オペレーター (データベースと Hadoop の両方で使用可能) を使用して、これらの外れ値を管理できます。外れ値置換 オペレーターの使用方法の詳細については、データ ソース タイプのリファレンス トピック (外れ値置換 (DB) および 外れ値置換 (HD)) を参照してください。

外れ値置換は、指定したパーセンタイルしきい値の上下のすべての値を、そのしきい値内の最大/最小値に置き換えます。しきい値として使用する絶対的な最小値と最大値を指定するのではなく、下位パーセンタイル (下限境界 %) と上位パーセンタイル (上限境界 %) を選択できます。

たとえば、次のデータセットを考えてみましょう。

StringColumn Column1 Column2
first 0 5
second 10 5
third 20 5
fourth 30 5
fifth 40 10
sixth 50 5
seventh 60 8
eighth 70 8
ninth 80 9
tenth 90 5

下限境界 (%) = 30.0、上限境界 (%) = 90.0 に設定した場合、出力は次のようになります。

StringColumn Column1 Column2
first 0̶ 20 5
second 1̶0 20 5
third 20 5
fourth 30 5
fifth 40 1̶0 9
sixth 50 5
seventh 60 8
eighth 70 8
ninth 80 9
tenth 9̶0 80 5

Column1 の 9 番目の要素は 80、3 番目の要素は 20 であるため、80 を超える数値と 20 未満の数値はすべてそれらの値に置き換えられます。要素が 10 個あるため、下限しきい値は 3 番目の要素 (10 の 30% = 3) であり、上限しきい値の 9 番目の要素は (10 の 90% = 9) であるため、上限しきい値となります。

Column2 (ソートされていない) の場合、9 番目の要素は 9 です。したがって、9 より大きいものはすべて置き換えられます。 3 番目の要素は 5 です。つまり、5 より小さいものはすべて (この場合は何も) 置き換えられます。

外れ値の置換の仕組みが理解できたので、オペレーターの置換オペレーター (外れ値を置換 (DB) または 外れ値を置換 (HD)) を使用してみます。