分類しきい値メトリクス

ユーザーが指定した一意のクラスに関連付けられたさまざまな信頼しきい値の (バイナリまたはマルチクラス) 分類パフォーマンス メトリックを出力するために使用します。

情報一覧

パラメーター

説明
カテゴリー モデルの検証
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

分類しきい値メトリック オペレーターは、評価メトリック パッケージ (Spark バージョン 1.5.1) の Spark MLLib 分類しきい値調整を部分的に利用します。

このオペレーターと使用可能なメトリクスの詳細については、「予測しきい値」を参照してください。

入力

分類しきい値調整の前に、分類オペレーターまたは 予測器 オペレーターのいずれかを置く必要があります。これらのオペレーターからの出力は、このオペレーターの計算に必要です。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
従属カラム 分類モデルのトレーニングに使用される従属変数 (数値またはカテゴリ) を含むカラムを選択します。
重要: 選択した [依存カラム] 内の個別の値がモデル クラス (スパースの [信頼度] カラム内のクラス) のサブセットではない場合、n エラーが発生します。実行時。
信頼度カラム 分類モデル (バイナリまたはマルチクラス) のクラスに関連付けられた信頼レベルを含むカラムを選択します。このカラムはスパース データ タイプである必要があり、モデル クラスに関連付けられたすべての信頼レベルのディクショナリ (文字列キーと double 値を含む) が含まれています。

例: {"red":0.52, "green":0.32, "blue":0.26} または {"0":0.52, "1":0.48}

これは、分類子オペレーターまたは予測子オペレーターの出力の [INFO_model_name] カラムである可能性が高くなります。

予測するクラス 予測するモデル クラスの 1 つを入力します (数値エントリと文字列エントリの両方に引用符は必要ありません)。このクラスは、分類メトリックを計算するためにポジティブ クラスとみなされます。

例: 赤または 1

ノート: [依存] カラムが数値で、[予測するクラス] に入力された値を数値にキャストできない場合は、パラメーター ダイアログを閉じる前にエラーが表示されます。

[予測するクラス] に入力した値がモデル クラス ([信頼度] カラムのクラス) のメンバーではない場合、実行時にエラーが発生します。

ビンの数 (おおよそ) 出力内のおおよその行数に対応する、信頼度しきい値ビンのおおよその数 (デフォルトは 20) を選択します。
  • 0 を入力すると、結果には入力内の個別の信頼しきい値ごとにポイントが含まれ、これは入力自体と同じくらい大きくなる可能性があります。
  • それ以外の場合、ダウン・サンプリング後の結果はおよそ X ビンで構成されます。

ポイントは、同数の連続ポイントのビンで構成されます。各ビンのサイズは、floor(total_rows/num_bins) に等しいため、結果として得られるビンの数は、指定された値と正確に一致しない可能性があります。結果として、各パーティションの最後のビンが小さくなる可能性があります。これは、パーティションの境界に余分なサンプルが存在する可能性があることを意味します。

F 値のベータ値 (β) F スコアを計算するための β 値を入力します (>= 0、デフォルト = 1 である必要があります)。
ノート: ベータ パラメーターは、結合されたスコアの F 値の精度の重みを決定します。

上の式に示されているように、β < 1 の場合は精度が重視され、β > 1 の場合は再現率が優先されます。 β = 1 の場合、F1 測定値は再現率と精度の調和平均と呼ばれます。

Null データにより削除された行をファイルに書き込む [依存] カラムまたは [信頼度] カラムのいずれかに少なくとも 1 つの Null 値がある行は、分析から削除されます。このパラメーターを使用すると、Null 値を含む行をファイルに書き込むかどうかを指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。

  • 書き込み禁止 または Null 行をカウント (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。

  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

データ出力
関連する信頼しきい値 (降順) とパフォーマンス メトリックを含むデータセット。後続のオペレーターに接続できます。

次のメトリクスは、出力で利用できます (選択した陽性クラスの場合)。

  • 再現率
  • 適合率
  • F スコア (ベータ値の場合)

    β

    選ばれました)
  • 誤検知率
  • 累計数
  • 累積数 (パーセンテージ)
  • 精度
  • リフト
  • KS