分類器 (HD)

任意の入力分類モデルを使用して、入力データセットに分類予測を適用します。

情報一覧

パラメーター

説明
カテゴリー 予測
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール MapReduce

ノート: Classifier (HD) オペレーターは Hadoop データ専用です。データベース データの場合は、分類器 (DB) オペレーターを使用します。

アルゴリズム

TIBCO Data Science - Team Studio 分類オペレーターは、アルパイン フォレスト、ディシジョン ツリー、K 平均法 (Hadoop)、ロジスティック回帰、ナイーブ ベイズ、ニューラル ネットワーク、または SVM 分類オペレーターモデルのトレーニングによって生成されたモデルに基づいて、イベントの発生確率を予測するために使用されます。

入力

入力データセットには、依存カラムを除き、モデル トレーニング用に選択されたデータセット内のカラムと名前が同じになるカラムが含まれている必要があります。

分類オペレーターには次の両方が必要です。

  • 入力分類モデル。
  • モデルが適用される入力データセット。

分類オペレーターの前にあるモデルは、次のいずれかになります。分類オペレーターは、前のオペレーターから 1 つだけではなく複数のモデルを取得できます。

  • アルパイン フォレスト
  • デシジョン ツリー
  • K 平均法
  • ロジスティック回帰
  • ナイーブ ベイズ
  • SVM 分類

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
結果を保存しますか? 結果を保存するかどうかを指定します。
  • true - 結果が保存されます。
  • false - データセットは保存せずに次のオペレーターに渡されます。
結果ロケーション オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。
結果名 結果を保存するファイルの名前。
上書き そのパスとファイル名の既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプションは次のとおりです。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプションは次のとおりです。

  • Deflate
  • Snappy
  • 圧縮なし

出力

ビジュアル出力

分類子は、入力データセットのカラムを含む予測カラムを、ユーザーが指定した予測テーブルの場所に出力します。

表示される出力テーブル/ビューのデータ行 (最大 2000 行のデータ)。

たとえば、依存カラム srsdlqncy の出力は次のようになります。

データ出力

分類オペレーターは、次の標準化された 3 つの予測カラムを出力します。

  • P_dependent_column_name: 依存カラムの戻り値の 1 つである予測値。
  • C_dependent_column: P_dependent_column_name の予測値である結果を取得する信頼度。
  • C_dependent_column_details: 依存カラムの取り得る値に関連付けられた信頼値。

ノート: 分類子オペレーターに複数の入力モデルがある場合、結果の出力には入力モデルごとに 3 つの予測列が含まれ、カラム名の前に入力モデル オペレーターの名前が付加されます。

データ出力
このオペレーターを後続のオペレーターに接続します。