アルパイン フォレスト評価器
モデルの精度データ、考えられる各予測値に対する分類モデルの精度を示す混同行列ヒート マップ、および誤差収束率グラフを提供します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデルの検証 |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | いいえ |
| データ処理ツール | MapReduce |
アルパイン フォレスト評価器オペレーターは、アルパイン フォレスト モデル評価オペレーターであり、適合度評価器と似ていますが、よりグラフィックな性質を持っています。
アルゴリズム
アルパイン フォレスト評価器オペレーターは、アルパイン フォレスト オペレーター アルゴリズムの予測分類の精度を評価するために使用されます。モデルのパフォーマンスは、マトリックス内の真陽性、真陰性、偽陽性、および偽陰性の数を使用して評価されます。次の表は、2 クラス分類器の混同行列を示しています。
| 予測 | a はインスタンスが負であるという正しい予測の数、b はインスタンスが正であるという誤った予測の数です。 | |||
| 負の値 | 正の値 | |||
| 実際 | 負の値 | a | b | c はインスタンスが負であるという誤った予測の数、d はインスタンスが正であるという正しい予測の数です。 |
| 正の値 | c | d | ||
混同行列オペレーターと同様に、アルパイン フォレスト評価器オペレーターもいくつかの標準精度項を計算します (詳細については、混同行列 を参照してください)。
- 精度 (AC) は、正しかった予測の総数の割合です。
- 再現率 または 真陽性率 (TP) は、正しく特定された陽性症例の割合です。
- 偽陽性率 (FP) は、陰性のケースのうち、誤って陽性として分類された割合です。
- 真陰性率 (TN) は、正しく分類された陰性症例の割合として定義されます。
- 偽陰性率 (FN) は、誤って陰性として分類された陽性症例の割合です。
- 最後に、適合率 (P) は、予測された陽性症例のうち、正しかった割合です。
アルパイン フォレスト評価器 は、誤差収束グラフを生成するために誤差率も計算します。これはモデルの誤分類率を示し、単純に 1 - 精度 (AC) となります。これは次のように計算することもできます。
エラー率 = 
入力
- アルパイン フォレスト分類オペレーター
- 前のオペレーターからのデータセット
制限事項
アルパイン フォレスト評価器オペレーターは、アルパイン フォレスト Division オペレーターおよび前のオペレーターからのデータセットに接続する必要があります。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
出力
データ出力は、各クラスのすべての Observed/Predicted の組み合わせの分類精度カウントを提供します。次の例では、Observed (0) 行と Predicated (0) カラムの交点は、値 0 の 47,714 個の予測が正しかったことを示しますが、Observed (0)/Predicted (1) セルは、モデルが 0 ではなく 1 を予測したことを示しています。たったの7回。したがって、クラス 0 の予測では、クラス再現率は 99.98% 正しかったと言えます。
ただし、Observed (1)/Predicted (0) セルは、I の実際の値に対して 0 を誤って予測したモデルの 1,028 回のインスタンスを示し、Observed (1)/Predicted (1) セルは、モデルが 1 を 1,251 回正しく予測したことを示し、 54.89%のうち 1 つを予測する精度 (クラス再現率)。
全体として、この例では、アルパイン フォレスト分類モデルの精度は 97.93% であると計算されます。

混同行列 ヒート マップには、分類モデルの実際の数と予測された数に関する情報が表示されます。
次の例は、アルパイン フォレストモデルの混同行列 ヒート マップを示しています。この場合、値 0 を 100% の精度で予測したときにモデルが最高のパフォーマンスを発揮することは明らかです。ただし、値 1 の予測の精度は低下し、正しい確率は 49% のみです。

ツリーの数が増加するにつれてエラー率が表示されます。これは、アルパイン フォレストモデルの誤差収束率を示しています。
次の例は、エラー率を最低にするためにアルパイン フォレストモデルで必要なデシジョン ツリーの数を決定する際に、このようなグラフがどのように役立つかを示しています。この場合、決定木が 9 つになると、エラー率は 0.00%に下がります。
