回帰評価器

このオペレーターは、回帰モデルを評価するためのいくつかのメトリックを計算します。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー モデルの検証
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 いいえ
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

このオペレーターは、予測値を含む選択されたカラムの精度を決定するために、一般的に使用されるいくつかの統計テストを計算します。このオペレーターは、Spark MLlib に回帰評価器を実装します。

モデルの検証のために、オペレーターは Spark ML 回帰評価器を使用します。次の評価指標でモデルを使用できます。

メトリック

説明 数式
平均 2 乗誤差 (MSE) 実際のカラムと予測されたカラムの差の 2 乗の合計をデータセット内の観測値の数で割ったもの。

0 の値は、各観測値の予測値と実際の値がまったく同じであることを示します。値が非常に高い場合は、実際の値と予測値の差が非常に大きいことを示します。

方程式 - MSE.png
2 乗平均平方根誤差 (MSE) 平均 2 乗誤差 (MSE) メトリックの平方根。 方程式 - RMSE.png
平均絶対誤差 (MAE) 各観測値の予測列と実際のカラムの間の絶対差の平均。

0 の値は、各観測値の予測値と実際の値がまったく同じであることを示します。値が非常に高い場合は、実際の値と予測値の差が非常に大きいことを示します。

方程式 - MAE.png
決定係数 (R2) 独立変数から予測可能な従属変数の分散の割合。

1 は回帰直線がデータに完全に適合することを示し、値 0 はデータにまったく適合しないことを示します。値が負の場合は、水平線が回帰モードよりも優れており、データの傾向を捉えていないことを示します。

方程式 - R.png の係数

ここで、

  • RSS = 残差の 2 乗和

  • TSS = 平方和の合計

説明された分散 回帰によって説明される分散を返します。詳細については、Spark のドキュメントを参照してください。 分散方程式の説明

入力

入力は、1つの表形式データセットと1つ以上の TIBCO Data Virtualization モデル オペレーターです。

不正な値または欠落している値
  • オペレーターは分類モデルのみを受け入れます。
  • オペレーターは複数のデータセットを受け入れません。
  • Null 値は許されず、エラーとなります 。
  • エラーを防ぐために、2 種類の入力 (表形式データと少なくとも 1 つのモデル オブジェクト) をこのオペレーターに接続する必要があります。
  • 従属変数は入力データセット内に存在する必要があります。そうでない場合、オペレーターはエラーを生成します。

構成

次の表に、回帰評価器オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
実際の値 モデルのトレーニングに使用された従属変数を保持する数値列、または従属変数の既知の値のカラムを指定します。列は数値型のカラムである必要があります。
出力スキーマ 出力テーブルまたはビューのスキーマを指定します。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
結果の保存 [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。

出力

ビジュアル出力
回帰モデルのパフォーマンスを表示します。 [モデル] 列には、上流のオペレーターの名前が表示されます。これにより、同じモデルの複数のインスタンスを区別できるようになります。
後続のオペレーターへの出力
モデルのパフォーマンスを示すデータ テーブル。

次の例では、crabs データセットを使用して エラスティック ネット 線形回帰 モデルを構築し、回帰評価器オペレーターを使ってモデルと crabs データセットを評価します。

回帰評価器オペレーターのワークフローの例
データ
crabs: このデータセットには次の情報が含まれています。
  • カラー、スパイン、幅、サテライト、重量、キャット幅などの複数の列。
  • 複数行(173行)
パラメーター設定
crabs データセットのパラメーター設定は次のとおりです。
  • 実際の値: 衛星
  • 結果を保存: はい

出力
次の図は、crabs データセットのパラメーター設定の結果を示しています。
回帰評価器オペレーター - [出力] タブ