枝刈りまたは事前枝刈り
デシジョン ツリーに関連する重要な概念は枝刈りまたは事前枝刈りです。これにより、枝はモデルに十分な情報関連性を追加しないため、枝がツリーから削除されます。
枝刈りおよび事前枝刈りは、デシジョン ツリーのオーバー フィッティングを回避するのに役立ち、ツリーをよりコンパクトで読みやすくします。一般的なデータセットの場合、アルゴリズムの実行に時間がかかりすぎる場合を除き、両方を使用する必要があります。
枝刈りのプロセスには、各非リーフ ノードを調べ、信頼値に基づいてノードをリーフに変えるかどうかを決定することが含まれます。言い換えれば、サブツリーがモデルに十分な付加価値を追加するかどうかを決定します。枝刈りでは、木全体が構築され、その後、適切な予測材料でないと判断された場合は、サブブランチが切り取られます。
事前枝刈りのプロセスは、純度の向上 (つまり、デシジョン ツリー オペレーターの情報利得の増加と CART オペレーターのジニ係数の改善) に基づいて構築されるデシジョン ツリーを制限します。これは枝刈り後のプロセスよりも高速なプロセスですが、場合によっては決定木が小さすぎる場合があります。
ノート: 組み合わせたアプローチでは、枝刈り前と枝刈り後をインターリーブするのが標準的な方法です。枝刈り後は、枝刈り前よりも多くの計算を必要としますが、一般的にはより信頼性の高いツリーが得られます。単一の枝刈り方法が他の枝刈り方法よりも優れているということはありません (Data Mining: Concepts & Techniques, by Jiawei Han, Micheline Kamber, Jian Pei, page 346)。
事前枝刈りは、モデルを小さく保つ (そしてオーバー フィッティングを防ぐ) ための最も安価な方法です。