混同行列
分類モデルの実際の数と予測された数に関する情報を表示し、考えられる各クラス値に対するモデルの精度を評価するのに役立ちます。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデルの検証 |
| データ ソース タイプ | HD、DB |
| 出力を他のオペレーターに送信 | いいえ |
| データ処理ツール | MapReduce |
混同行列オペレーターは、適合度評価器に似た分類モデル評価オペレーターですが、本質的にはよりグラフィックです。
アルゴリズム
混同行列オペレーターは、ロジスティック回帰、アルパイン フォレスト、ナイーブ ベイズ、デシジョン ツリー、または SVM オペレーターの結果を含む、TIBCO Data Science - Team Studio 分類モデリング アルゴリズムの予測分類の精度を評価するために使用されます。
モデルのパフォーマンスは、行列内の真陽性、真陰性、偽陽性、および偽陰性の数を使用して評価されます。次の表は、2 クラス分類器の混同行列を示しています。
| 予測 | a はインスタンスが負であるという正しい予測の数、b はインスタンスが正であるという不正確な予測の数です。 | |||
| 負の値 | 正の値 | |||
| 実際 | 負の値 | a | b | c はインスタンスが負であるという誤った予測の数、d はインスタンスが正であるという正しい予測の数です。 |
| 正の値 | c | d | ||
2 クラス分類モデルの場合 (たとえば)、混同行列オペレーターはいくつかの標準精度項を計算します。
| # | 精度項 | 説明 | 数式 |
|---|---|---|---|
| 1 | 精度 (AC) | 精度 (AC) は、正しかった予測の総数の割合です。 |
|
| 2 | 再現率または真陽性率 (TP) | リコールまたは真陽性率 (TP) は、正しく特定された陽性症例の割合です。 |
|
| 3 | 偽陽性率 (FP) | 偽陽性率 (FP) は、陰性のケースのうち、誤って陽性として分類された割合です。 |
|
| 4 | 真陰性率 (TN) | 真陰性率 (TN) は、正しく分類された陰性ケースの割合です。 |
|
| 5 | 偽陰性率 (FN) | 偽陰性率 (FN) は、誤って陰性として分類された陽性症例の割合です。 |
|
| 6 | 適合度 (P) | 適合度 (P) は、予測された陽性ケースのうち、正しかった割合です。 |
|
式 1 を使用して決定される精度は、陰性のケースの数が陽性のケースの数よりはるかに多い場合、適切なパフォーマンスの尺度ではない可能性があります (Kubat et al.、1998)。 1000 件の症例があり、そのうち 995 件が陰性、5 件が陽性であると仮定します。システムがそれらをすべて陰性として分類した場合、分類器がすべての陽性ケースを見逃したとしても、精度は 99.5% になります。
他の性能測定では、製品に TP を含めることによってこれを説明します。たとえば、方程式 7 および 8 で定義される幾何平均 (g-mean) (Kubat et al.、1998) や 式 9 で定義される F-Measure (Lewis and Gale、1994) などです。
| # | メジャー | 説明 | 数式 |
|---|---|---|---|
| 7 | 幾何平均 (g-mean), 1 | 真陽性率と精度の幾何平均 |
|
| 8 | 幾何平均 (g-mean), 2 | 真陽性率と真陰性率の幾何平均 |
|
| 9 | F-Measure | 精度と偽陽性率の調和平均 |
|
式 9 では、β は 0 から無限大までの値を持ち、TP と P に割り当てられる重みを制御するために使用されます。式 7、8、または 9 を使用して評価された分類子は、すべての陽性ケースが誤って分類された場合、測定値 0 になります。
入力
- 前のオペレーターからのデータセット。
- 前のオペレーターからのモデル。複数のモデルをその前のオペレーターから受け取った場合、その結果をモデルの比較に使用できます。この入力はデータベースではオプションです。
構成
混同行列では 2 つの構成が可能です。
- 分類モデル オペレーターとデータセットを接続します。この構成では、モデルがデータセット内のサンプルをスコアリングし、混同行列が結果を要約します。Hadoop の場合、この構成が唯一のオプションであり、オペレーターは構成を必要としません。データベースの場合、この構成では、[モデルを使用] パラメーターを [true] に設定する必要があります。モデルとデータセットの両方が接続されている場合、パラメーターは必要ありません。
- データベースの 2 番目の構成では、予測列がすでに存在する入力テーブルのみを使用します。この場合、[モデルを使用] パラメーターを [false] に設定し、予測列 入力を使用して評価する予測カラムを選択します。 (データベース上で) データセット接続のみの場合、次のパラメーターが適用されます。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 依存カラム | モデル内の従属変数として使用されるカラムを定義します。 |
| モデルを使用 | 評価で前のオペレーターのモデルを使用するか、入力データセットの予測カラムのデータを使用するかを指定します。
ノート: このパラメーターは Hadoop データ ソースには適用されません。 |
| 予測列 | 依存カラムと比較する入力データセット内のカラムのリストを選択します。 ノート: このパラメーターは Hadoop データ ソースには適用されません。 |
出力
データ出力は、各クラスのすべての観測値と予測値の組み合わせの分類精度カウントを提供します。
次の例では、Observed (1) 行と Predicted(1) カラムの交点は、値 1 の 111,309 個の予測が正しかったことを示しますが、Observed(1)/Predicted(2) セルは、モデルが 1 ではなく 2 を 426 回予測したことを示しています。したがって、クラス 1 の予測では、クラス再現率は 99.62% 正しかったと言えます。ただし、Observed(2)/Predicted(1) セルは、実際の値 2 と Observed(2)/Predicted(2) に対して 1 を誤って予測するモデルのインスタンス 2,311 件を示しています。

混同行列 ヒート マップには、分類モデルの実際の数と予測された数に関する情報が表示されます。
次の例は、ロジスティック回帰モデルの混同行列ヒート マップを示しています。この場合、値 0 を 99% の精度で予測するときにモデルが最高のパフォーマンスを発揮することは明らかです。ただし、値 1 の予測の精度は低下し、正しい確率は 10% のみです。

例
この例では、ロジスティック回帰オペレーターと、出力を混同行列に送る関連データセット credit.csv を示します。


