回帰評価器
このオペレーターは、回帰モデルを評価するためのいくつかのメトリックを計算します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデルの検証 |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | いいえ |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
このオペレーターは、予測値を含む選択されたカラムの精度を決定するために、一般的に使用されるいくつかの統計テストを計算します。このオペレーターは、Spark MLlib に回帰評価器を実装します。
モデルの検証のために、オペレーターは Spark ML 回帰評価器を使用します。次の評価指標でモデルを使用できます。
|
メトリック |
説明 | 数式 |
|---|---|---|
| 平均 2 乗誤差 (MSE) | 実際のカラムと予測されたカラムの差の 2 乗の合計をデータセット内の観測値の数で割ったもの。 0 の値は、各観測値の予測値と実際の値がまったく同じであることを示します。値が非常に高い場合は、実際の値と予測値の差が非常に大きいことを示します。 |
![]() |
| 2 乗平均平方根誤差 (MSE) | 平均 2 乗誤差 (MSE) メトリックの平方根。 |
|
| 平均絶対誤差 (MAE) | 各観測値の予測列と実際のカラムの間の絶対差の平均。 0 の値は、各観測値の予測値と実際の値がまったく同じであることを示します。値が非常に高い場合は、実際の値と予測値の差が非常に大きいことを示します。 |
![]() |
| 決定係数 (R2) | 独立変数から予測可能な従属変数の分散の割合。 値 1 は回帰直線がデータに完全に適合することを示し、値 0 はデータにまったく適合しないことを示します。値が負の場合は、水平線が回帰モードよりも優れており、データの傾向を捉えていないことを示します。 |
ここで、 |
| 説明された分散 | 回帰によって説明される分散を返します。詳細については、Spark のドキュメントを参照してください。 |
|
入力
入力は、1つの表形式データセットと1つ以上の TIBCO Data Virtualization モデル オペレーターです。
- オペレーターは分類モデルのみを受け入れます。
- オペレーターは複数のデータセットを受け入れません。
- Null 値は許されず、エラーとなります 。
- エラーを防ぐために、2 種類の入力 (表形式データと少なくとも 1 つのモデル オブジェクト) をこのオペレーターに接続する必要があります。
-
従属変数は入力データセット内に存在する必要があります。そうでない場合、オペレーターはエラーを生成します。
構成
次の表に、回帰評価器オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 実際の値 | モデルのトレーニングに使用された従属変数を保持する数値列、または従属変数の既知の値のカラムを指定します。列は数値型のカラムである必要があります。 |
| 出力スキーマ | 出力テーブルまたはビューのスキーマを指定します。 |
| 出力テーブル | 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。 |
| 結果の保存 | [はい] に設定すると、オペレーターは結果を保存します。 [いいえ] に設定すると、オペレーターは結果を保存しません。 |
出力
例
次の例では、crabs データセットを使用して エラスティック ネット 線形回帰 モデルを構築し、回帰評価器オペレーターを使ってモデルと crabs データセットを評価します。
- カラー、スパイン、幅、サテライト、重量、キャット幅などの複数の列。
- 複数行(173行)
- 実際の値: 衛星
-
結果を保存: はい

