ディシジョン ツリーにおける純度の概念

デシジョン ツリーの構築では、純度の概念は、サブセットに属するグループ内のデータ要素の割合に基づいています。

デシジョン ツリーは、行を子ノードに分割する分割によって構築されます。ツリーが「バイナリ」であるとみなされる場合、そのノードは 2 つの子のみを持つことができます。子グループを分割する場合も同じ手順が使用されます。このプロセスは「再帰的パーティショニング」と呼ばれます。分割は、ターゲット変数の値を予測するために使用できるツリーを構築するために選択されます。トレーニング セットからデシジョン ツリーを導出する主なアルゴリズムは、貪欲なアプローチを採用しています。これは、可能な限り「最も純粋な」サブセットまたはブランチ ノードの最も明確な分割を目指すことを意味します。

この純度の概念は、サブセットに属するグループ内のデータ要素の割合に基づいています。セットの純度を定義できる 1 つの方法は、その最も一般的な構成要素の頻度として定義することです。たとえば、セットがクラス A の項目が 60%、クラス B が 30%、クラス C が 10% で構成されている場合、その純度は 60%になります。

ノート: セットのすべての要素が同じクラスに属する場合に、すべてが最大値に達する純度を定義する許容可能な方法は他にもあります。

情報ゲインは、純度の向上を測るより優れた定量的尺度の 1 つと考えられています。