ナイーブ ベイズ

ナイーブ ベイズ オペレーターは、特定のイベントが発生する確率を計算します。これは、特定のデータ ポイントが特定の分類に含まれる確率を予測するために使用されます。

ナイーブ ベイズ

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー モデル
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

ナイーブ ベイズ分類器は、イベントが発生する確率を計算します。これは、Bayes の定理と予測変数間の強い独立性の仮定を組み合わせたものです。Bayes の定理は、以前のイベントが発生した場合の発生確率を計算します。実際とは関係なく、ナイーブ ベイズ分類器は、結果に対する予測子の影響を独立して考慮します。

  • TIBCO Data Science - Team Studio ナイーブ ベイズ オペレーターは、独立性を仮定した ナイーブ ベイズ条件付き確率定理を使用して、従属変数のクラス事前分布と各独立変数の確率分布を計算します。
  • サマリーとして、ナイーブ ベイズの条件付き確率定理では、データセット (X) と結果の仮説 (H) が与えられた場合、その仮説が次の事後確率で得られると述べています。true は、尤度に事前確率を乗算した積に比例します。
  • 確率モデルの正確な性質に応じて、ナイーブ ベイズ分類器は教師あり学習設定で非常に効率的にトレーニングできます。
  • いくつかのデータといくつかの仮説が与えられると、その仮説が真である事後確率は、尤度に事前確率を掛けた積に比例します。
  • 簡単にするために、「事前確率」は「事前」と省略され、「事後確率」は「事後」と省略されることがよくあります。
  • 尤度はデータの効果をもたらしますが、事前確率はデータが観察される前の仮説の信念を指定します。

より正式には、条件付き確率の Bayes の公式は次のように表されます。

条件付き確率の公式

ここで、

  • P(H|X) は、条件 X が与えられた場合に結果 H が発生する条件付き確率です。
  • P(X|H) は、条件 H で結果 X が発生する条件付き確率です。
  • P(H) は、結果 H が発生する事前に観察された確率です。
  • P(X) は、結果 X が発生する事前に観測された確率です。

この Bayes の公式は、過去のデータから計算できる P(H)P(X|H)P(X) から、事後確率 (P(H|X)) を計算する方法を提供するので便利です。

ナイーブ ベイズの条件付き独立性の仮定の式は次のとおりです。

事後確率

特徴が連続値の場合、クラス変数 C にわたる条件付き分布は次のように表されます。

クラス変数 C に対する条件付き分布

  • この式は、各独立変数の値に対する理想的な正規分布曲線を表します。

    ノート: ほとんどの独立変数は正確に正規分布を持つ可能性が高いため、これは単純化された仮定です。
  • ただし、ナイーブ ベイズ モデルの予測は依然として非常に正確で、許容可能なレベルの信頼性があります。
  • ナイーブ ベイズ オペレーターは、2 つ以上の離散カテゴリーを持つ従属カラムを受け入れることができます。

    ノート: 従属変数が整数値の場合、各整数は別個のカテゴリとして扱われます。
  • 独立性の仮定では、すべての予測子または変数が結果に独立して関連しているものとして扱われます。
  • ナイーブ ベイズの定理の結果は、その変数に対して発生する可能性のある各カテゴリ値の正規確率曲線を示します。

このオペレーターは、Spark MLLib から ナイーブ ベイズ アルゴリズムを実装します。

入力

入力は単一の表形式のデータセットです。

不正な値または欠落している値
Null 値は許されず、エラーとなります。

構成

[使用可能なすべてのカラムを予測子として使用する] パラメーターが [はい] に設定されている場合、オペレーターは使用可能なすべてのカラムを予測子として使用します。それ以外の場合は、指定された連続予測子とカテゴリー予測子が使用されます。これにより、イベント モデル タイプとラムダ パラメーターを指定できます。次の表には、ナイーブ ベイズ オペレーターの構成の詳細が含まれています。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
従属変数 カテゴリー データ カラムを依存カラムとして指定します。
利用可能なすべてのカラムを予測子として使用する [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターと分類予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリー予測変数の少なくとも 1 つを選択する必要があります。
連続予測子 数値データカラムを独立したカラムとして指定します。数値カラムである必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。
ノート: カテゴリー予測子 パラメーターで選択されたカラムは使用できません。
カテゴリー予測子 カテゴリー データ カラムを独立カラムとして指定します。
ノート: 連続予測パラメーターで選択されたカラムは使用できません。
モデル タイプ イベント モデル タイプは ナイーブ ベイズによってサポートされています。次の値が使用可能です。
  • 多項式

  • 補数

  • ベルヌーイ

  • ガウス

デフォルト: 多項式

ノート: 多項モデルと補モデルの特徴値は、非負 (0 以上) の値である必要があります。

ベルヌーイ モデルの特徴値は 0 または 1 でなければなりません。

詳細については、Apache Spark のドキュメントを参照してください。

ラムダ 加算平滑化パラメーターを指定します。値は負ではない (0 以上) 必要があります。

デフォルト: 1.0

出力

ビジュアル出力
  • パラメーターサマリー情報: 入力パラメーターとその現在の設定に関する情報が表示されます。
  • トレーニングのサマリー: 従属変数と、カテゴリー予測子と連続予測子のそれぞれのデータを含むテーブルを表示します。従属変数データは、各ラベルの事前確率を表します。

    ベルヌーイ、補数、および多項モデル タイプの場合、予測子データは各予測子の条件付き確率分布を示します。ガウス モデル タイプの場合、データは各予測子の平均値の指数 (exp) を表します。

後続のオペレーターへの出力
予測 オペレーターとともに使用できる分類モデル オブジェクト。追加の 3 つのカラムは 予測オペレーターで生成されます。
  • PRED_NB: 分類モデルの予測値。
  • CONF_NB: 予測値の確率。
  • INFO_NB: 各クラスの全体的な確率。
混同行列 および 適合度オペレーターとも使用できる分類モデル オブジェクト。

次の例は、ナイーブ ベイズ オペレーターを示しています。

ナイーブ ベイズ オペレーターのワークフロー
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、すなわち、天気概況、気温、風、湿度、プレー (outlook、temperature、wind、humidity、play)
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • 従属変数: プレー

  • 使用可能なすべてのカラムを予測子として使用する: いいえ

  • 連続予測変数: 気温、湿度

  • カテゴリー予測変数: 天気概況、風

  • モデル タイプ: 多項式

  • ラムダ: 1.0

結果
これらの図は、golf データセットのパラメーター設定の結果を示しています。
パラメータ サマリー情報
パラメーターのサマリー情報
トレーニング サマリー
トレーニングのサマリー結果