アルパイン フォレストを使用したアンサンブル デシジョン ツリー モデリング
TIBCO Data Science - Team Studio Hadoop およびデータベース データ ソース用のフォレスト モデリング オペレーターを多数提供しています。
デシジョン ツリー オペレーターと同様に、アルパイン フォレスト分類は、最終的なデシジョン値につながる一連の計算ステップまたはロジック「テスト」をツリー状に分岐させて作成します。違いは、アルパイン フォレスト分類オペレーターが複数のデシジョン ツリーを作成し、各ツリーがわずかに異なることです。具体的には、各ツリーはトレーニング データのランダムなサブセットに作用し、決定ノードで変数のランダムなサブセットを使用します。
したがって、アルパイン フォレスト分類は、分割を決定するために各ノードでの属性のランダムな選択を使用して生成された個々のデシジョン ツリーの「フォレスト」を結合する「アンサンブル」方法です。最終的な分類の決定は、結果として得られるすべてのツリーにわたる最も頻繁な分類の「投票数」によって決定されます。
アルパイン フォレストの背後にある主なアイデアは、多くの異なるデシジョン ツリーを作成し、それぞれの木が異なる場所で間違いを犯すと想定することで、ツリーのグループ全体が平均してほとんどの場所で正しい答えを知ることができるはずであるというものです。したがって、集約ツリーの結果は、単一ツリーの結果よりも正確であることが期待されます。
アルパイン フォレスト分類モデリングは、現在利用可能な最も正確な学習アルゴリズムの 1 つであると考えられており、非常に正確なカテゴリ分類結果を生成します。アルパイン フォレスト分類モデリングのその他の利点は次のとおりです。
- モデラーが最初に変数を強力な予測子のみに絞り込む必要がなく、大規模な予測子のセットから変数を自動的に選択する機能。
- 大規模な構成を必要とせずに「既成の」状態で適切に動作する機能。モデラーは、数分以内に迅速かつ比較的正確な結果を得ることができます。
- 変数を削除せずに数千の入力予測変数を受け入れる機能。言い換えれば、観測値よりも予測変数が多い「広範な」データを処理し、他の手法で通常行われなければならないような、ある種の変数削減プロセスを最初に実行する必要はありません。
- どの変数が分類にとって重要であるかを示す機能。
- フォレスト構築の進行に応じて、モデル精度の組み込みの交差検証エラー推定値を生成する機能。
- 変数間の非常に非線形な境界や相互作用を検出する機能。
- 大規模なデータセットを効率的に処理する機能。
アルパイン フォレスト分類法のいくつかの欠点には、一部のデータセットに対してオーバー フィッティングする傾向 (つまり、樹ツリーの数が多すぎる場合) や、結果として得られるアルパイン フォレストは人間が解釈して視覚化するのが難しいことが含まれます。また、さまざまなレベル数を持つカテゴリ変数を含むデータの場合、アルパイン フォレストはより多くのレベルを持つ属性を優先して偏る傾向があります。