アイソレーション フォレスト

このオペレーターは、アイソレーション フォレスト の教師なし外れ値検出アルゴリズムを入力データセットに適用します。アイソレーション フォレスト アルゴリズムの実装は、LinkedIn のオープンソース ライブラリによって提供されます。

アイソレーション フォレスト オペレーター アイコン

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー モデル
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

アイソレーション フォレストは、データセット内の潜在的な異常を分離する異常検出用の教師なし学習アルゴリズムです。アイソレーション フォレスト は、デシジョン ツリーのアンサンブルに基づいて構築されています。このアルゴリズムは、ランダムに選択された特徴とサンプルを使用して各ツリーを構築します。原則として、最も異なる観測値はより少ない分割で分割され、ルートに近くなります。したがって、経路長は正常性の尺度として定義され、アルゴリズムによって返される異常スコアは、決定木のフォレストにわたる平均経路長の逆関数を使用して計算されます。

指定されたカラムは分離異常検出モデルのトレーニングに使用され、選択されたカテゴリー カラムはワンホット エンコーディング アルゴリズムによって特徴付けられます。

入力

入力は単一の表形式のデータセットです。

不正な値または欠落している値
Null 値は許されず、エラーとなります 。

構成

次の表に、アイソレーション フォレスト オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
利用可能なすべてのカラムを予測子として使用する [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。
連続予測子 数値データカラムを独立したカラムとして指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。
ノート: カテゴリー予測子 パラメーターで選択されたカラムは使用できません。
カテゴリー予測子 カテゴリー データ カラムを独立列として指定します。 [カラムの選択] をクリックして、必要なカラムを選択します。
ノート: 連続予測子 パラメーターで選択されたカラムは使用できません。
推定器の数 ツリーまたは推定器の数を指定します。

デフォルト: 100

ブートストラップを適用する 各ツリーを置換でサンプリングするかどうかを指定します。 [はい] の場合、置換を含む各ツリーのサンプルを描画します。 [いいえ] の場合は、置換によるサンプリングを行わないでください。

デフォルト: [いいえ]

分数/サンプル数 各ツリーのトレーニングに使用されるサンプルの数を指定します。値が 0.0 から 1.0 までの場合、分数として扱われます。値が 1.0 より大きい場合、カウントとして扱われます。

デフォルト: 1.0

特徴の割合/数 各ツリーのトレーニングに使用される特徴の数を指定します。値が 0.0 から 1.0 までの場合、分数として扱われます。値が 1.0 より大きい場合、カウントとして扱われます。

デフォルト: 1.0

コンタミネーション トレーニング データセット内の外れ値の割合を指定します。値を 0.0 に設定すると、トレーニングが高速化され、予測されたラベルはすべて false になります。それ以外の場合、モデルと外れ値のスコアはこのパラメーターの影響を受けません。

デフォルト: 0.1

コンタミネーション エラー (上級)

指定されたコンタミネーション率を達成するために必要なしきい値を計算する際の許容誤差。値が 0.0 の場合、しきい値の正確な計算が強制されます。正確な計算は時間がかかり、大規模なデータセットの場合は失敗する可能性があります。正確な計算に問題がある場合は、多くの場合、このパラメーターは指定されたコンタミネーション値の 1% が適切な選択となります。

デフォルト: 1.0E-4

ランダム シード 擬似ランダム行抽出に使用するシードを指定します。

デフォルト: 1

出力

ビジュアル出力
  • パラメーターサマリー情報: 入力パラメーターとその現在の設定に関する情報が表示されます。
  • トレーニングのサマリー: 正常数、異常数、およびカットオフ値のデータを含むテーブルを表示します。

後続のオペレーターへの出力
予測器 オペレーターでのみ使用できるモデル オブジェクト。データセットに対して変換を実行するには、アイソレーション フォレスト オペレーターの後に 予測器 オペレーターが続く必要があります。次の追加のカラムが 予測器 オペレーターで生成されます。
  • PRED_ISF: 観測値が異常かどうかを指定します。値が 1 の場合は異常であり、値が 0 の場合は異常ではありません。

  • CONF_ISF: 異常スコアを返します。

モデル検証オペレーターでは使用できないモデル オブジェクト。

次の例は、アイソレーション フォレスト オペレーターを示しています。

アイソレーション フォレストの例
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • 使用可能なすべてのカラムを予測子として使用する: いいえ

  • 連続予測変数: 温度

  • カテゴリ予測変数: 天気概況、風

  • 予測子の数: 100

  • ブートストラップを適用: いいえ

  • 分数/サンプル数: 1.0

  • 特徴の割合/数: 1.0

  • コンタミネーション: 0.1

  • コンタミネーション エラー (上級): 1.0E-4

  • ランダム シード: 1.0

結果
これらの図は、golf データセットのパラメーター設定の結果を示しています。
パラメーターのサマリー情報
アイソレーション フォレスト オペレーター - パラメーターのサマリー情報
トレーニングのサマリー
隔離林オペレーター - トレーニングのサマリー