デシジョン ツリーと CART オペレーターの一般原則
デシジョン ツリーは、デシジョン ポイント (ツリーのノード) の階層で構成されるルールベースの分類子です。
デシジョン ツリーは、一連の予測変数である独立変数の値を使用して、ターゲットである従属変数の値をどのように予測できるかをモデル化できます。
デシジョン ツリーは、分類木 (離散値の範囲を持つラベル) または回帰木 (連続 (数値) の範囲を持つラベル) のいずれかになります。
分類デシジョン ツリー分析は、予測結果がデータが属するクラスであることを特徴としています。TIBCO Data Science - Team Studio のデシジョン ツリーオペレーターは、C4.5 (Quinlan 1993) アルゴリズムを使用して分類デシジョン ツリー分析を実行します。デシジョン ツリー分類分析では、各従属変数は可能な値の離散リストのみを持つことができます。
回帰デシジョン ツリー分析は、住宅の価格や患者の入院期間など、予測結果が実数とみなされることを特徴としています。TIBCO Data Science - Team Studio CART オペレーターは、CART (Breiman et al. 1984) アルゴリズムを使用して回帰デシジョン ツリー分析を実行します。CART デシジョン ツリー分析では、各従属変数に、可能な値の離散または連続のリストを含めることができます。
デシジョン ツリーは、再帰的分割によって学習されます。つまり、データセットをさまざまなグループに分割し、各グループを分析してデータをさらにサブグループに分割します。アルゴリズムはさまざまな停止条件に基づいて分割を停止するため、モデルがオーバーフィットすることはありません。
デシジョン ツリーを使用して未知のインスタンスを分類する場合、ツリーの各ノードで 1 つの特徴が検査されます。その特徴の値に基づいて、次のノードが選択されます。各ノードは、元のデータセットのレコード (行) のセットを表します。子ノードを持つノードは「内部」ノードと呼ばれます。子ノードを持たないノードは、「ターミナル」ノードまたは「リーフ」ノードと呼ばれます。最上位のノードは「ルート」ノードと呼ばれます。実際のツリーとは異なり、デシジョン ツリーはルートが一番上になるように描画されます。ルート ノードは、データセット内のすべての行を表します。