ナイーブ ベイズの使用例
ナイーブ ベイズ モデリングは、生物学および医療分野、オンライン文書およびスパム分類分野、サプライ チェーンの在庫管理、財務予測などのさまざまなアプリケーションに役立ちます。ここでは、生物学分野での具体的な使用例を紹介します。
生物学的白血病の分類
この使用例のソース データセットは LeukemiaTrainingData.csv (9KB) です。この使用例で使用されるトレーニング用生物学的白血病遺伝子データセットは、http://research.cs.queensu.ca/home/xiao/dm.html から取得します。
このデータセットの例は、生物学的研究の測定結果から作成されています。データは、白血病に関連する上位 31 個の遺伝子までクレンジング、正規化され、フィルタリングされています。次に、各カラムが属性 (遺伝子名) を表し、各行が生物学的サンプルのレコードを表すようにデータが転置されています。 [Class] カラムは、サンプルに関連する白血病のタイプが「ALL」か「AML」かを示すために追加されました。
データセットに ナイーブ ベイズ モデルを適用する目的は、異なる種類の白血病を区別する高い識別能力を持つ遺伝子または属性を見つけることです。したがって、この場合、依存値は白血病のタイプを表します。これは、「ALL」または「AML」のいずれかの可能な値を持つカテゴリ変数です。
このデータセットの最初の行を以下に示します。
ワークフロー
このユース ケースでは、新しいフローに ナイーブ ベイズおよび ナイーブ ベイズ予測オペレーターを追加することで、トレーニング ナイーブ ベイズ白血病データセットから ナイーブ ベイズ モデルを構築できます。
ナイーブ ベイズ オペレーターは、次のように [Target] カラムを従属変数として構成します。
すべてのデータセット遺伝子カラムが選択されます (サンプル番号を表す最初の [ID] カラムを除く)。
結果
モデルを保存して実行すると、次の結果が得られます。[Summary] 結果タブが表示されます。
トレーニング データセットでは、AML クラスの白血病が 28.95% 発生し、ALL クラスの白血病が 71.05% 発生しました。これにより、履歴トレーニング データセットに関する情報が提供されます。
注: モデルのトレーニングに使用される事前分布が母集団全体のクラス分布と類似していることが重要です。
[Data] 結果タブには、上位 31 個の予測遺伝子属性のそれぞれが、正規分布曲線の平均値と標準偏差の計算とともに表示されます。
このデータは、白血病のさまざまなクラスを示す測定値を理解し、白血病の種類を最も予測する遺伝子を選択するのに役立ちます。たとえば、D26156 遺伝子属性の値が 578 +/- 215 の場合は、白血病の AML クラスを示しますが、値が 1306 +/- 520 の場合は、白血病の ALL クラスを示します。
注: この使用例では、白血病の各クラスの正規分布曲線のほとんどが互いに異なります (つまり、平均が異なり、標準偏差が小さい)。これは、開始データセットが既に 7,000 を超える異なる遺伝子をこれらの最も予測性の高い白血病遺伝子の上位 31 個にまで削減しているためです。したがって、ほとんどの遺伝子がモデルにとって重要であると予想されます。
ナイーブ ベイズ予測オペレーターを含めると、追加のモデル結果が得られます。
予測値 (0 または 1) では、予測が行われる信頼度が 50% を超えるしきい値の仮定が使用されます。
C(AML) カラムは、依存値が AML であるという信頼度を示します。
C(ALL) カラムは、依存値が ALL であるという信頼度を示します。
モデルを評価するには、ROC、適合度、LiFT スコアリング オペレーターも追加する必要があります。
サマリー
これらの結果は、ナイーブ ベイズ モデルの予測性が高いことを示しています。
モデラーは、新しいサンプルが与えられたときに、白血病タイプを予測するためにモデルがどのように使用できるかを説明するために、トレーニング データセットとは異なるデータセットでモデルをテストすることができます。
- 同じカラム見出しで、白血病のクラス(目標値)がまだわかっていない白血病テストデータセットをフローに追加します。
- トレーニング データセットの代わりにテスト データセットをナイーブ ベイズ予測子に接続して、次のフロー構成を実行します。
- このモデルを実行すると、各サンプル行がどのタイプの白血病を含むかを高い信頼性で予測できるようになり、ナイーブ ベイズ モデルの予測力が示されます。