アルパイン フォレスト 回帰

アンサンブル アルゴリズムを適用して、アンサンブルの数値回帰ツリー予測を集約 (多数決または平均) することによって数値予測を行います。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール MapReduce、Spark

入力

モデリング用の従属変数と独立変数を含むデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
従属カラム モデル化または予測する量。

アルパイン フォレスト には 依存カラム を指定する必要があります。分類の従属変数と見なされるデータカラムを選択します。

ノート: 回帰モデルの場合、従属変数は数値である必要があります。
カラム デシジョン ツリー トレーニングに含める独立変数データカラムを選択できます。

  • 少なくとも 1 つのカラムを指定する必要があります。
  • [カラム] をクリックすると、分析に使用できる入力データセットからカラムを選択するためのダイアログが開きます。

ツリーの数 アルパイン フォレスト回帰でトレーニングする個別のデシジョン ツリーの数を指定します。作成されるツリーの数を増やすと、通常、モデルの精度が向上します。ただし、十分な量のツリーが作成されている限り、アルパイン フォレスト回帰モデルはこのパラメーターの変更にあまり敏感ではありません。
ノート: ユーザー インターフェイスには、内部でさらに多くのツリー結果が生成された場合でも、最大 20 件のツリー結果しか表示されません。

デフォルト値: 10

自動構成を使用する TIBCO Data Science - Team Studio が、[ツリーの数] パラメータを除くすべての必要なアルパイン フォレスト構成パラメータを決定できるようにします。

デフォルト値: true

特徴量関数 [ノードごとの機能数] パラメーターが自動的に決定されます。

オプション:

  • 平方根: [ノードごとの機能数] は、カラム数の平方根 (整数に切り捨て)、または少なくとも 1 に設定されます。
  • 1/3: [ノードごとの機能数] は、(カラム数)/3 (整数に切り捨て)、または少なくとも 1 に設定されます。
  • すべて : [ノードごとの機能数] はカラムの数に設定されます。
  • ユーザー定義: ユーザーは [ノードごとの機能数] 値を直接設定します。これを行わないと、他の [機能関数の数] の選択肢 (Hadoop 構成の場合) ではグレー表示されます。

デフォルト値: 平方根

ノードごとの機能数 m は、ツリー構築プロセス中に各ノードで考慮される予測子の数を指定します。アルパイン フォレスト アルゴリズムは、トレーニング セットからランダムに選択されたこれらの m 変数に基づいて、ツリーの最適な分割を計算します。

[ノードごとの機能数] は、カラム プロパティに指定されたカラムの数よりも大幅に少なくする必要があります。

ノート: [ノードごとの機能数] は、アルパイン フォレストモデルが最も影響を受ける主な構成パラメーターです。分割ごとの変数数を増やすと、各デシジョン ツリーが大きくなり、各ノードでより多くの情報が提供されます。ただし、モデラーにとっては解釈が難しくなります。

デフォルト値: 1 (Hadoop の場合)

置換を伴うサンプリング

入力データセットからトレーニング変数データ行サンプルを選択するときに置換を使用するかどうかを指定します。このプロパティは、使用可能なデータセット行から収集された n トレーニング データ サンプルのそれぞれに対してデータ行を再利用できるかどうかを制御します。

  • この値を [true] (デフォルト) に設定すると、より多くのランダムなデータセットの組み合わせが可能になるため、トレーニングのパフォーマンス時間が長くなります。
  • この値を [false] に設定すると、システムが各デシジョン ツリーに対してデータ行を複数回選択しないことを指定します。この設定は、大規模なデータセットからの n データ行の小さなサンプルに適しています。このような場合、置換なしのサンプリングは、置換ありのサンプリングとほぼ同じになります (同じデータ ポイントがランダムに 2 回選択される確率が低い場合)。
サンプリング率 (-1 = 自動) 各デシジョン ツリーに使用されるランダム サンプル データ行として選択できるデータ行全体の割合を指定します。

  • この値は 10 進数で入力する必要があります。
  • サンプリング率は、個々のリデューサーのメモリに収まるデータ量によって制限されるため、通常は低く設定されます (10%~ 20%)。たとえば、Reducer に 2 GB の使用可能なメモリがあるが、データ全体が 10 GB になる場合、個々の Reducer がサンプリングするデータは 20% 未満 (2/10) である可能性が高くなります。対照的に、Spark バージョンの アルパイン フォレスト は、任意の大規模なデータセットに対して 100% のサンプリングを実行できます。データベースのサンプリング率は通常、データの 65 ~ 100% に設定されます。
  • サンプリング率が -1 (デフォルト) の場合、TIBCO Data Science - Team Studio は、自動的に値を決定し、サンプリング率がメモリに収まらないほど大きくならないようにします。

注意: [サンプリング率] の設定が Hadoop に対して大きく設定された場合、サンプル数が個々のツリー トレーナーがメモリに収まる量(Hadoop では [最大 JVM ヒープ サイズ] によって決定される)よりも大きくなる可能性があります。この場合、TIBCO Data Science - Team Studio は、最終的にすべてのトレーニング サンプルがメモリに収まるように、ランダムなサンプルをドロップします。
最大深さ (-1 = 無制限) ツリーの「深さ」、またはツリーの成長フェーズ中にルート ノードの下に分岐できるデシジョン ノードの最大数を設定します。ノードが空になる(つまり、現在のノードに分割するサンプルがなくなる)か、ツリーの深さがこの [最大深さ] 制限を超えると、ツリーはそれ以上深く成長しなくなります。

  • 可能な値の範囲は、-1 から 0 より大きい整数までです。
  • 値 -1 は「境界なし」を表します。ツリーは、ノードが空になるまで、任意のサイズまたは無制限の数の決定ノードを取ることができます。

デフォルト値: 5

分割の最小サイズ (枝刈り前のパラメータ)

さらなる分割を可能にするために、デシジョン ツリー内のノードの最小サイズ (またはメンバーの数) を指定します。ノードのデータ メンバーが [分割の最小サイズ] よりも少ない場合、そのノードはツリー内のリーフ ノードまたは終了ノードになる必要があります。個々のツリーがトレーニングされている場合、これはツリーのトレーニングを停止する基準になります。

[分割の最小サイズ] は、プルーニング前の段階で参照されます。

  • 可能な値の範囲は 2 以上の任意の整数です。

デフォルト値: 2

最小リーフ サイズ (枝刈り前のパラメータ)

リーフ ノードのサイズに基づいてツリーの深さを制限し、十分なデータがツリーの各部分に到達するようにします。

これは、モデルの構築に時間がかかりすぎる場合、またはモデルがトレーニング データでは非常に優れた ROC を示しているが、ホールドアウト データや交差検証データでは (オーバー フィッティングのため) それほど良好なパフォーマンスが得られない場合に役立ちます。たとえば、[最小リーフ サイズ]2 の場合、各末端リーフ ノードには少なくとも 2 つのトレーニング データ ポイントが含まれている必要があります。

可能な値の範囲は、1 以上の任意の整数値です。

デフォルト値: 1

最大 JVM ヒープ サイズ (MB) (-1 = 自動) [最大 JVM ヒープ サイズ] (Hadoop のみ) は、個々のツリー トレーナーに割り当てられる仮想メモリの量を決定します。単一ツリーのトレーニング サンプルの数はこれによって制限されます。

デフォルト値: 1024

-1 の値は、メモリ不足の問題を回避するために、[最大 JVM ヒープ サイズ] を自動的に設定します。

Spark を使用する [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
  • 変数の重要度 - 結果は、モデル内の各独立変数の回帰係数値を提供します。

    各分割で、この分割によってノードの不純物がどの程度削減されるか (純度ゲイン) が計算されます。次に、各変数について、それが使用されているすべての分割 (ノードで使用されているサンプルの数で重み付け) およびすべてのツリーにわたって合計します。次に、最大の純度ゲインを持つ変数を見つけ、すべての変数にわたってこの値で除算します。

    アルパイン フォレスト回帰では、不純物関数として分散減少法 (Variance Reduction) を使用します。

  • 個別のツリー統計 - モデル内の各デシジョン ツリーの結果を最大 20 個のツリーまで表示します。

  • 平均ツリー統計 - モデルで使用されている各ツリーのスナップショットのサマリーを提供します。

    • モデル内のツリーの総数
    • 使用されるトレーニング サンプルの平均数
    • ドロップされたトレーニング サンプルの平均数
    • 非リーフ ノードの平均数
    • 平均リーフ数
    • モデルに使用される不純物関数

データ出力
通常、アルパイン フォレスト回帰モデルの後には、実際のデータセットのトレーニング値および関連する信頼レベルと比較される各データ行の予測値を提供する 予測器 オペレーターが続きます。
ノート: 現在、アルパイン フォレスト 回帰オペレーターには、特定の 評価オペレーターがありません。予測オペレーターを使用して予測値と実際の値を比較し、一般にアルパイン フォレスト 回帰オペレーターの精度を評価します。

次の図は、アルパイン フォレスト 回帰オペレーターの 予測器 オペレーターからの出力を示しています。

P_ column は、モデルの精度を評価するために、依存カラム (この場合は Column9) の実際の値と比較できます。