回帰評価器 (HD)

一般的に使用されるいくつかの統計テストを計算して、いくつかのカラム (予測値) の精度を決定します。これらは、「グランド トゥルース」として指定された 1 つのカラム (実際の値) に対する予測を表します。

情報一覧

パラメーター

説明
カテゴリー モデルの検証
データ ソース タイプ HD
出力を他のオペレーターに送信 いいえ
データ処理ツール Spark
ノート: 回帰評価器 (HD) オペレーターは、Hadoop データのみを対象としています。データベース データの場合は、回帰評価器 (DB) オペレーターを使用します。

このオペレーターで使用されるメトリクスの詳細については、「回帰評価器の計算指標と使用例」を参照してください。

入力

実際の値 (既知の真実) の数値カラムと予測値の数値カラムを含む Hadoop からの表形式のデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
実際の値 モデルのトレーニングに使用された従属変数を保持する数値カラム、または従属変数の既知の値のカラム。
予測値 (実際の値と比較するため) 結果がモデルを予測する一連の数値カラム。たとえば、これを使用して複数の異なる線形回帰を評価する場合、各回帰の予測値がここで選択されます。
Null データのために削除された行をファイルに書き込む Null 値を含む行は分析から削除されます。これにより、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
予測された各カラムに関するメトリクスのテーブル。

後続のオペレーターへのデータ出力
なし。これはターミナル オペレーターです。