ナイーブ ベイズ (DB)

ナイーブ ベイズ オペレーターは、特定のイベントが発生する確率を計算します。これは、特定のデータ ポイントが特定の分類に含まれる確率を予測するために使用できます。

ナイーブ ベイズ

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし
ノート: ナイーブ ベイズ (データベース) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、ナイーブ ベイズ (HD) オペレーターを使用します。

アルゴリズム

ナイーブ ベイズ分類器は、イベントが発生する確率を計算します。これは、Bayes の定理と予測変数間の強い独立性の仮定を組み合わせたものです。Bayes の定理は、以前のイベントが発生した場合の発生確率を計算します。実際とは関係なく、ナイーブ ベイズ分類器は、結果に対する予測子の影響を独立して考慮します。

  • TIBCO Data Science - Team Studio ナイーブ ベイズ オペレーターは、独立性を仮定した ナイーブ ベイズの条件付き確率定理を使用して、従属変数のクラス事前分布と各独立変数の確率分布を計算します。
  • サマリーとして、ナイーブ ベイズの条件付き確率定理では、データセット X と結果の仮説 H が与えられた場合、仮説が真である事後確率は次のようになります。尤度に事前確率を掛けた積に比例します。
  • 確率モデルの正確な性質に応じて、ナイーブ ベイズ分類器は教師あり学習設定で非常に効率的にトレーニングできます。
  • いくつかのデータといくつかの仮説が与えられると、その仮説が真である事後確率は、尤度に事前確率を掛けた積に比例します。
  • 簡単にするために、「事前確率」は「事前」と省略され、「事後確率」は「事後」と省略されることがよくあります。
  • 尤度はデータの効果をもたらしますが、事前確率はデータが観察される前の仮説の信念を指定します。

より正式には、条件付き確率のベイズの公式は次のように表されます。

条件付き確率の公式、ここで

  • P(H|X) は、条件 X が与えられた場合に結果 H が発生する条件付き確率です。
  • P(X|H) は、条件 H で結果 X が発生する条件付き確率です。
  • P(H) は、結果 H が発生する事前に観測された確率です。
  • P(X) は、結果 X が発生する事前に観測された確率です。

この Bayes の公式は、過去のデータから計算できる P(H)P(X|H)P(X) から、事後確率 (P(H|X)) を計算する方法を提供するので便利です。

事後確率これは、ナイーブ ベイズの条件付き独立性仮定の式です。

特徴が連続値の場合、クラス変数 C にわたる条件付き分布は次のように表されます。

クラス変数 C に対する条件付き分布

  • この式は、各独立変数の値に対する理想的な正規分布曲線を表します。注: ほとんどの独立変数は正確に正規分布を持つ可能性が高いため、これは単純化された仮定です。
  • ただし、ナイーブ ベイズ モデルの予測は依然として非常に正確で、許容可能なレベルの信頼性があります。
  • ナイーブ ベイズ オペレーターは、2 つ以上の離散カテゴリを持つ従属カラムを受け入れることができます。注: 従属変数が整数値の場合、各整数は別個のカテゴリとして扱われます。
  • 独立性の仮定では、すべての予測子または変数が結果に独立して関連しているものとして扱われます。
  • ナイーブ ベイズの定理の結果は、その変数に対して発生する可能性のある各カテゴリ値の正規確率曲線を示します。

入力

モデリング用の従属変数と独立変数を含むデータセット。依存カラムはテキスト型である必要があります。数値を使用するには、まず 数値からテキストへ (DB) オペレーターにデータを渡します。

構成

依存カラムはカテゴリカル (非数値) 変数である必要があります。ナイーブ ベイズ分析は、1 つ以上の予測変数に基づいてカテゴリ変数の結果の確率を予測します。カテゴリ変数とは、有効無効など、限られた数の値、レベル、またはカテゴリを取ることができる変数です。

ロジスティック回帰およびデシジョン ツリー分類器とは異なり、ナイーブ ベイズ オペレーターの出力は観測された分類値ごとにイベントの確率を提供するため、ナイーブ ベイズでは予測値の指定は必要ありません。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存カラム [依存カラム] は ナイーブ ベイズ分類器に指定する必要があります。予測する従属変数またはクラスを考慮するデータカラムを選択します。 [従属カラム]は、目の色 = 青、緑、茶色などのカテゴリー(非数値) タイプである必要があります。

整数が受け入れられ、各整数はカテゴリとして扱われます。

独立したカラム 回帰分析またはモデルのトレーニングに含める独立変数データカラムを選択します。少なくとも 1 つのカラムまたは 1 つの相互作用変数を指定する必要があります。

出力

ビジュアル出力
Summary 結果
Summary 結果には、次のようにクラス事前確率が表示されます。

クラス事前確率 - 事前確率は、モデルのトレーニング データに基づいて、従属変数のさまざまな可能な分類結果イベントの観測された履歴確率を定義します。これは、考えられる結果ごとにデータの全体的な傾向を示し、ソース データを迅速かつ直感的に確認できるため、有益な情報です。

モデラーは、考えられる従属変数の値のうち、トレーニング データ内で最も頻繁に発生した値と最も頻度が低かった値を確認できます。

上記の例では、トレーニング データは、従属変数クラス値が 1 であることが以前に 4.56% 発生し、値が 0 であることが 95.44% 発生したことを示しています。

Data 結果
Data 結果には、モデル内の各独立変数 (従属変数の結果ごと) について計算された標準偏差曲線の適合数 (平均と標準偏差) が表示されます。

カラム説明
Attribute正規分布曲線が記述されている独立変数の名前。

ナイーブ ベイズ モデリングの結果を評価する場合、データ テーブルの各行は、従属変数に指定されたクラス値を指定して、各独立変数の正規分布曲線を記述します。

観察された曲線のクラス値と、関連する曲線の 平均 値と 標準偏差 値が提供されます。

Class予測される従属変数の可能な各値を表します。考えられるすべての従属変数の結果値について、平均 および 標準偏差 値によって定義される独立変数の正規分布曲線が表示されます。

たとえば、times90dayslate を表す独立変数の場合、信用延滞を表す従属変数 (srsdlnqncy) が 1 (true) の場合、times90dayslate の平均値は 90 日遅れの .6785 倍ですが、延滞が false の場合、平均値は 90 日遅れの .1077 倍のみです。

クレジット カード請求書の支払いが 90 日遅れた回数が多ければ多いほど、深刻なクレジット カード滞納の可能性が高くなります。

Mean指定された依存値クラスの結果を考慮した独立変数の平均値を表します。モデラーは、さまざまなクラス値にわたる独立変数の平均を比較する必要があります。 (標準偏差値に対して) 平均値に大きな差がある場合、その特定の変数は従属変数のより強力な予測子になります。
注意: 標準偏差が平均を超えている場合、平均値は可能な限り最良であっても重要ではありません。ただし、経験則として、標準偏差が平均の平方根より小さい場合、平均は変数の重要性を測る有用な尺度になります。
ノート: 標準偏差が小さいと仮定して、クラス間の平均値の差がほとんどまたはまったくない (つまり、正規分布曲線が完全に重なっている) 場合、その関連する独立変数はモデル内で有意ではない可能性があります。

たとえば、上記の信用延滞モデルの年齢変数が、その人が滞納していても滞納していなくても同じ平均値を持つ場合 (曲線の標準偏差にわずかな違いがあるだけ)、その人の平均値は次のようになります。年齢は、その人がクレジットカードの支払いを滞納しているかどうかを予測する強力な要因ではありませんでした。

Standard Deviation指定された依存値クラスの結果の平均からの独立変数値の標準偏差を表します。これは、その特定の変数と特定のクラス結果の正規分布曲線がどの程度広がっているかを示します。

標準偏差が小さいほど、特定のクラス値の独立変数値の範囲が狭いことを示します。

モデラーは、変数ごとに、標準偏差値が平均値とどのように比較されるかを理解する必要があります。変数の平均はクラスの結果ごとに異なる可能性がありますが、標準偏差が大きい場合、正規分布曲線はどのクラスの結果でも大幅に重複するため、変数は ナイーブ ベイズ モデルでは実際には優れた予測子ではありません。

したがって、標準偏差が小さいほど、平均値は変数がモデルに関連しているかどうかを示す強力な指標になります。さらに、平均と比較して標準偏差が大きいほど、平均に対する信頼度は低くなります。

たとえば、monthly_income 変数の場合、標準偏差は平均収入の値の半分を超えています。これは、その人が滞納と滞納の両方がある場合、その人の月収に大きな変動があることを示しているようです。非行ではない。結論としては、monthly_income は信用延滞の予測因子としては弱い、ということになるかもしれません。

大きな標準偏差は、ランダム誤差 (つまり、自然ノイズ) または系統的誤差 (つまり、データ品質の低下) によって引き起こされる可能性もあります。

要約すると、考えられるすべてのクラス結果について、特定の変数の正規分布曲線間の重複が増えるほど、ナイーブ ベイズ モデルにおける変数の予測性は低くなります。

データ出力
ナイーブ ベイズ モデル。ナイーブ ベイズ モデルを作成する場合、モデラーはモデル検証オペレーターを追加する必要があります。1さらに ナイーブ ベイズ モデルの精度統計 (適合度オペレーターから) および/またはビジュアル出力 (ROC およびリフトオペレーターから) を取得します。特に ROC 曲線は、分類モデルを比較するための便利な視覚ツールです。