デシジョン ツリーの使用例

この使用例モデルは、ディシジョン ツリー モデルを使用して、ダイレクト マーケティング キャンペーンのターゲットとなる新製品の購入につながるクライアントの特性を評価する方法を示しています。

ダイレクト マーケティング キャンペーンの成功分類

データセット
この場合、従属変数は、ダイレクト マーケティング キャンペーン中に電話をかけられたクライアントが定期預金に加入したかどうかを示す y カラム (yes または no) です。このデータセットは UC Irvine サイト (http://archive.ics.uci.edu/ml/machine-learning-databases/00222/) から取得したもので、このケースで使用される正確なバージョンは bank_marketing_data.csv (3.7MB)。

分析された属性には、クライアントの年齢、雇用形態、配偶者の有無、学歴、口座のデフォルト状況、住宅ローンの状況、個人ローンの状況、コンタクトの種類、最終コンタクト日、最終コンタクト月、最終コンタクト時間(秒)、コンタクト回数、コンタクトからの日数、最終コンタクトからの経過日数、前回のコンタクト回数、前回のキャンペーンの結果が含まれます。

最初の数行は、y を従属変数として以下に示します。

銀行マーケティングデータテーブル

ワークフロー

この分析フローの全体的な構成は次のようになります。

デシジョン ツリーの分析フロー

この例では、モデラーが「定期預金商品の最も高い定期預金金利の対象となる顧客のサブグループはどれですか?」という質問を理解しようとしていると仮定します。

モデラーがすべての変数を独立変数として選択した場合、結果は非常に複雑で反復的なものになり、すぐにはビジネス上の洞察が得られないようです。

デシジョン ツリーの例

この特定の例では、変数 month がデシジョン ツリーを爆発させており、ビジネス上の意思決定の価値をあまり付加していないようです。

このようなオーバー フィッティングを回避するための 1 つのアプローチは、モデラーが独立変数に関して持つ可能性のあるいくつかの初期仮定をテストすることです。

たとえば、キャンペーン中に商品について十分な情報を持っていた(十分な期間の接触があった)場合、またはマーケティング キャンペーンが成功した後にすでに定期預金を購読している場合、さまざまな顧客が定期預金を購読する可能性が高くなります。

この仮説を念頭に置いて、モデラーは分析される潜在的な独立変数を減らし、分析に含める contactdurationcampaignpdayspreviousoutcome 変数のみを選択する可能性があります。デシジョン ツリー オペレーター全体の構成プロパティは、デフォルト値のままでかまいません。

結果

この場合の結果はより理解しやすく、最後のキャンペーンが成功し、かつ最後の通話が 132 秒から 410 秒の間だった顧客は定期預金商品に加入する可能性が高いようであるという洞察が明らかになりました。

デシジョン ツリーの結果

予測オペレーターを含めると、追加のモデル結果が得られます。

ユース ケース表

予測 P(y) 値 (yes または no) では、予測が起こるという 50% を超える信頼度のしきい値仮定が使用されます。

ROC グラフ、混同行列、適合度オペレーターなどの追加のモデル診断ツールを接続すると、モデルの品質に関する追加のフィードバックが提供されます。

モデル

ROC (受信者動作特性) 曲線は、感度 (正しく分類された結果の%) と誤検知をプロットします。AUC 値が大きいほど、モデルの予測性が高くなります。通常、0.80 を超える AUC 値は「良好な」モデルとみなされます。値 .5 は、モデルが半分の確率で正しい答えを推測できる「愚かな」モデルと同等であることを意味します。

ROC 曲線

適合度オペレーターは、モデルの精度、誤差、その他の検証データを提供します。

フィット感の良さ

次の混同行列の表はモデルの精度データをまとめたもので、ヒート マップのビジュアルは分類モデルの実際の数と予測された数をまとめたものです。これら 2 つの要約は、考えられるクラス値ごとにモデルの精度を視覚的に直感的な方法で評価するのに役立ちます。

混同行列のサマリー表

混同行列のヒートマップ