回帰評価器の計算指標と使用例

モデル検証の場合、回帰評価オペレーターは MLlib 回帰評価ツールを使用します。これらは一緒にお使いいただけます。

指標
正確さ 説明 数式
平均二乗誤差 (MSE)

実際のカラムと予測されたカラムの差の二乗の合計をデータセット内の観測値の数で割ったもの。

値 0 は、各観測値の予測値と実際の値が同じであることを示します。値が非常に高い場合は、平均して実際の値と予測値の差が非常に大きいことを示します。

平均二乗誤差 (MSE) の回帰評価式

平均二乗誤差 (MSE) MSE メトリックの平方根。

平均二乗誤差 (RMSE) の平方根を求める回帰評価式

平均絶対誤差 (MAE) 各観測値の予測列と実際のカラムの間の絶対差の平均。値 0 は、各観測値の予測値と実際の値が同じであることを示します。非常に高い値は、平均して、実際の値と予測値の差が両方向で非常に大きいことを示します。

平均絶対誤差の回帰評価式

決定係数 R2 ) 独立変数から予測可能な従属変数の分散の割合。詳細については、決定係数 を参照してください。

R2 が 1 の場合は、回帰直線がデータに完全に適合していることを示し、値 0 はデータにまったく適合していないことを示します。値が負の場合、回帰モデルが水平線よりも悪く、データの傾向を捉えていないことを示します。

決定係数 R² の回帰評価式

RSS = 残差の二乗和

TSS = 平方和の合計

平均絶対パーセント誤差 (MAPE) 予測精度の尺度。精度をパーセンテージで表します。ただし、値がゼロの場合は、ゼロによる除算が発生するため、使用できません。行にゼロ値が含まれている場合、その行はスキップされます。

詳細については、平均絶対パーセント誤差を参照してください。

詳細については、Spark サイト で MLlib 情報を参照してください。

回帰評価オペレーター (回帰評価器 (DB) または 回帰評価器 (HD) のいずれか) は、入力計算から Null 値を削除することで Null 値を処理します。別の動作が必要な場合は、初期トレーニング データで Null 値置換オペレーター(Null 値置換 (DB) または Null 値置換 (HD) のいずれか) を使用して、不良値または欠損値を置き換えます。すべてのTIBCO Data Science - Team Studio MapReduce オペレーターは、不良データを回帰エバリュエーターに適した形式の Null 値に置き換えるため、この演算はカラム フィルターなどの MapReduce オペレーターの出力で失敗しません。

Team Studio 予測器との併用
このオペレーターの使用例の 1 つは、線形回帰オペレーター (線形回帰 (DB) または 線形回帰 (HD) のいずれか)の評価子としてです。これは、異なる回帰を比較するために使用できます。これを行うには、各モデル オペレーターとその学習に使用したデータセットを 1 つの TIBCO Data Science - Team Studio に接続し、その 予測子 をこのオペレーターに接続する必要があります。回帰評価器を構成するには、予測子を通過した元の従属変数列と、予測子によって生成されたカラム(各モデルに 1 つずつ)を選択します。予測子を通して渡される最後の数列は、予測子が予測した各モデルについてなされた予測です。
ワークフローの例