予測器

このオペレーターは、ターゲット値を予測するために、入力モデル (回帰、分類、クラスター化など) を入力データセットに適用します。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー 予測
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

予測器 オペレーターは、入力モデル オペレーターから開発されたモデルに基づいて予測を生成するために使用されます。

入力モデル 予測器が計算するもの
分類アルゴリズム 確率が最も高いクラス
数値回帰アルゴリズム 予測値
クラスタリング アルゴリズム 予測されるクラスター
異常検出アルゴリズム 異常クラス
PCA 主成分

このオペレーターは、1 つ以上のモデル オブジェクトと入力データセットを上流から受け取ります。次に、各モデル オブジェクトを入力データに適用し、予測を返します。モデルの種類に応じて、予測器 オペレーターは異なる予測カラムを生成します。追加の入力モデルごとに、生成されたカラム名にインデックス番号が追加されてカラム名が区切られます。

このオペレーターには、ユーザー指定の出力テーブルに次のモデルと予測カラムが含まれます。

モデル タイプ モデル 型式略称(キー) 予測カラム

 

 

 

分類

ナイーブ ベイズ NB
  • PRED_<key>: 分類モデルによって予測された値 (最も可能性の高いクラスを返します)。
  • CONF_<key>: 予測された分類の確率。

  • INFO_<key>: 各クラスの予測の確率。

エラスティック ネット ロジスティック回帰 LOR
ランダム フォレスト分類 RFC
勾配ブーストによる分類 GBTC

 

 

回帰

エラスティック ネット 線形回帰

LR

 

 

PRED_<key>: 回帰モデルによって予測された値。
ランダム フォレスト回帰

RFR

勾配ブースト回帰

GBR

クラスタリング K 平均法クラスタリング KM
  • PRED_KM: 予測されたクラスターの値。

  • DIST_KM: クラスター重心と観測値の間の距離。

主成分分析 主成分分析 PCA

y_i_PCA: 主成分の ith 番号 (0 から始まります)。

異常検出 アイソレーション フォレスト ISF
  • PRED_ISF: 観測値が異常であるかどうかを指定します。デフォルトでは、1 は異常であり、0 は異常ではありません。

  • CONF_ISF: 返された異常スコア。

入力

1 つ以上の入力 TIBCO Data Virtualization モデリング オペレーター (回帰、分類、クラスタリングなど) と、モデルが適用される 1 つの入力データセット。

このオペレーターは、クラスター リソースと Spark データ フレーム サイズによって制限されます。

不正な値または欠落している値
  • Null 値は許されず、エラーとなります。

  • 入力カラム名がモデル トレーニング用に選択されたデータセット内のカラム名と一致しない場合、エラーが報告されます。

  • 入力データ、表形式データ、および少なくとも 1 つのモデル オブジェクトをこのオペレーターに接続する必要があります。接続しない場合はエラーが発生します。

  • 従属変数は入力データセット内に存在する必要があります。そうでない場合、オペレーターはエラーを生成します。

構成

次の表に、予測器 オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
  • 出力: 予測されたデータセットのテーブルを表示します。
  • サマリー: TIBCO DV モデリング オペレーターとその選択されたカラムのリストが表示されます。
後続のオペレーターへの出力
ダウンストリーム オペレーターが使用できるテーブル出力。

次の例では、ナイーブ ベイズ モデルと 勾配ブーストによるツリー分類 モデルを構築し、それらのモデルを 予測器 オペレーターと組み合わせます。

予測オペレーターのワークフロー
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • 結果を保存: はい

結果
これらの図は、golf データセットのパラメーター設定の結果を示しています。
出力
予測オペレーター [出力] タブ

サマリー

予測オペレーターの「サマリー」タブ