デシジョン ツリーを使用した分類モデリング

デシジョン ツリー オペレーターは、分類モデリング アルゴリズムを入力データのセットに適用します。このオペレーターは、バイナリまたは限られた数の離散出力カテゴリを含むデータセットを予測または記述するのに最適です。

Team Studio では、デシジョン ツリーの実装がいくつか提供されています。利用目的に最適なオペレーターを選択してください。

デシジョン ツリーの実装とリンク 説明
デシジョン ツリー コアとなるディシジョン ツリー製品。Hadoop データセット上で動作します。
デシジョン ツリー - MADlib このディシジョン ツリー オペレーターは、MADlib 1.8 以下がインストールされているデータベースで使用できます。計算には MADlib の C4.5 アルゴリズムが使用されます。
デシジョン ツリー回帰 - CART このディシジョン ツリー オペレーターは、MADlib がインストールされたデータベースでも実行されます。このオペレーターでは、MADlib 1.8 以降がサポートされています。たとえば、MADlib 1.7.1 では動作しません。古いバージョンの MADlib をお持ちの場合は、他のディシジョン ツリー - MADlib オペレーターを使用できます。このオペレーターは、CART アルゴリズムを使用して決定木回帰を実行します。
デシジョン ツリー分類 - CART このディシジョン ツリー オペレーターは、MADlib がインストールされたデータベースでも実行されます。デシジョン ツリー回帰と同様に、MADlib 1.8 以降をサポートしています。古いバージョンの MADlib をお持ちの場合は、他のディシジョン ツリー MADlib オペレーターの使用を検討してください。このオペレーターは、CART アルゴリズムを使用して決定木分類を実行します。

CART ツリー オペレーターと同様に、デシジョン ツリー オペレーターは、最終的な決定値につながる分岐一連の計算ステップまたはロジック「テスト」を作成します。

ノート: CART オペレーターは離散従属変数と連続従属変数の両方を含むデータセットを処理しますが、デシジョン ツリーは離散従属変数の分類のみを目的としています。

結果として得られるデシジョン ツリーは、項目に関する観察 (独立変数) を項目の目標値 (従属変数) に関する結論にマッピングする予測モデルとして使用できます。

デシジョン ツリーには次の構造的特性があります。

  • ツリーと呼ばれる階層的分類構造。各決定ポイントまたはノードは、データがサブグループに分割されるポイントです。
  • 元の最上位ノードはデータセット全体を表し、ルート ノードと呼ばれます。
  • ツリー内のノードは、分類モデルで行われたさまざまな決定、計算、または論理テストを表します。
  • 一番下のリーフ (終端ノード) は、最終的な決定または分類が行われ、リーフ内のすべての観測値に適用される分類ラベルを表します。
  • 分岐は、分類ラベルにつながるフィーチャの結合を表します。

デシジョン ツリー モデルは、モデラーとビジネス ユーザーの両方に意思決定に至る方法を明確に示すため、魅力的です。それらは一連の単純な質問として構成されており、これらの質問に対する回答はツリーの下にあるパスをたどります。したがって、新しいデータに分類ロジック パスを手動で適用するのは簡単です。

次の図は、天気に基づいてテニスをするかどうかを決定するための単純化された意思決定ツリーを示しています。これは、分類ロジックに含まれるステップを理解するという点で、デシジョン ツリー オペレーターの出力がいかに視覚的に直感的であるかを示しています。

アルゴリズムの説明については、使用しているデシジョン ツリー オペレーターのヘルプを参照してください。

デシジョン ツリーは、TIBCO Data Science - Team Studio でトレーニングされた後 、さまざまな方法で使用できます。

  • ユーザーがモデルの「全体像」を理解するのに役立つ推論を行うことによって。デシジョン ツリーの大きな利点の 1 つは、技術者以外の人でも解釈しやすいことです。たとえば、ディシジョン ツリーが製品の売上をモデル化している場合、一目見ただけで、南部の男性の方が北部の女性よりも多くの製品を購入していることがわかるかもしれません。別の例としては、保険契約の健康リスクのモデルが考えられます。デシジョン ツリーをざっと見ただけで、喫煙と年齢が健康の重要な予測因子であることがわかるかもしれません。
  • ターゲットグループを特定することによって。たとえば、企業が製品に対して最も優れた潜在顧客を探している場合、ユーザーはツリー内で最も売上の割合が高い末端ノードを特定し、それらのノードによって記述される個人に企業の販売活動を集中させることができます。
  • 予測変数値のみがわかっている特定のケースのターゲット値を予測することによって。これは「スコアリング」として知られています。たとえば、選挙の結果を予測する場合、モデラーは国勢調査の結果を調べて誰が勝つかを予測することがあります。

オプションで、デシジョン ツリーの代替モデルの 1 つを使用できます。