アルパイン フォレスト 回帰
アンサンブル アルゴリズムを適用して、アンサンブルの数値回帰ツリー予測を集約 (多数決または平均) することによって数値予測を行います。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | MapReduce、Spark |
入力
モデリング用の従属変数と独立変数を含むデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 従属カラム | モデル化または予測する量。 アルパイン フォレスト には 依存カラム を指定する必要があります。分類の従属変数と見なされるデータカラムを選択します。 ノート: 回帰モデルの場合、従属変数は数値である必要があります。 |
| カラム | デシジョン ツリー トレーニングに含める独立変数データカラムを選択できます。
|
| ツリーの数 | アルパイン フォレスト回帰でトレーニングする個別のデシジョン ツリーの数を指定します。作成されるツリーの数を増やすと、通常、モデルの精度が向上します。ただし、十分な量のツリーが作成されている限り、アルパイン フォレスト回帰モデルはこのパラメーターの変更にあまり敏感ではありません。 ノート: ユーザー インターフェイスには、内部でさらに多くのツリー結果が生成された場合でも、最大 20 件のツリー結果しか表示されません。 デフォルト値: 10 |
| 自動構成を使用する | TIBCO Data Science - Team Studio が、[ツリーの数] パラメータを除くすべての必要なアルパイン フォレスト構成パラメータを決定できるようにします。 デフォルト値: true |
| 特徴量関数 | [ノードごとの機能数] パラメーターが自動的に決定されます。 オプション:
デフォルト値: 平方根 |
| ノードごとの機能数 | m は、ツリー構築プロセス中に各ノードで考慮される予測子の数を指定します。アルパイン フォレスト アルゴリズムは、トレーニング セットからランダムに選択されたこれらの m 変数に基づいて、ツリーの最適な分割を計算します。 [ノードごとの機能数] は、カラム プロパティに指定されたカラムの数よりも大幅に少なくする必要があります。 ノート: [ノードごとの機能数] は、アルパイン フォレストモデルが最も影響を受ける主な構成パラメーターです。分割ごとの変数数を増やすと、各デシジョン ツリーが大きくなり、各ノードでより多くの情報が提供されます。ただし、モデラーにとっては解釈が難しくなります。 デフォルト値: 1 (Hadoop の場合) |
| 置換を伴うサンプリング |
入力データセットからトレーニング変数データ行サンプルを選択するときに置換を使用するかどうかを指定します。このプロパティは、使用可能なデータセット行から収集された n トレーニング データ サンプルのそれぞれに対してデータ行を再利用できるかどうかを制御します。
|
| サンプリング率 (-1 = 自動) | 各デシジョン ツリーに使用されるランダム サンプル データ行として選択できるデータ行全体の割合を指定します。
注意: [サンプリング率] の設定が Hadoop に対して大きく設定された場合、サンプル数が個々のツリー トレーナーがメモリに収まる量(Hadoop では [最大 JVM ヒープ サイズ] によって決定される)よりも大きくなる可能性があります。この場合、TIBCO Data Science - Team Studio は、最終的にすべてのトレーニング サンプルがメモリに収まるように、ランダムなサンプルをドロップします。 |
| 最大深さ (-1 = 無制限) | ツリーの「深さ」、またはツリーの成長フェーズ中にルート ノードの下に分岐できるデシジョン ノードの最大数を設定します。ノードが空になる(つまり、現在のノードに分割するサンプルがなくなる)か、ツリーの深さがこの [最大深さ] 制限を超えると、ツリーはそれ以上深く成長しなくなります。
デフォルト値: 5 |
| 分割の最小サイズ | (枝刈り前のパラメータ) さらなる分割を可能にするために、デシジョン ツリー内のノードの最小サイズ (またはメンバーの数) を指定します。ノードのデータ メンバーが [分割の最小サイズ] よりも少ない場合、そのノードはツリー内のリーフ ノードまたは終了ノードになる必要があります。個々のツリーがトレーニングされている場合、これはツリーのトレーニングを停止する基準になります。 [分割の最小サイズ] は、プルーニング前の段階で参照されます。
デフォルト値: 2 |
| 最小リーフ サイズ | (枝刈り前のパラメータ) リーフ ノードのサイズに基づいてツリーの深さを制限し、十分なデータがツリーの各部分に到達するようにします。 これは、モデルの構築に時間がかかりすぎる場合、またはモデルがトレーニング データでは非常に優れた ROC を示しているが、ホールドアウト データや交差検証データでは (オーバー フィッティングのため) それほど良好なパフォーマンスが得られない場合に役立ちます。たとえば、[最小リーフ サイズ] が 2 の場合、各末端リーフ ノードには少なくとも 2 つのトレーニング データ ポイントが含まれている必要があります。 可能な値の範囲は、1 以上の任意の整数値です。 デフォルト値: 1 |
| 最大 JVM ヒープ サイズ (MB) (-1 = 自動) | [最大 JVM ヒープ サイズ] (Hadoop のみ) は、個々のツリー トレーナーに割り当てられる仮想メモリの量を決定します。単一ツリーのトレーニング サンプルの数はこれによって制限されます。 デフォルト値: 1024 -1 の値は、メモリ不足の問題を回避するために、[最大 JVM ヒープ サイズ] を自動的に設定します。 |
| Spark を使用する | [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。 |
| 高度な Spark 設定の自動最適化 |
|
出力
-
変数の重要度 - 結果は、モデル内の各独立変数の回帰係数値を提供します。
各分割で、この分割によってノードの不純物がどの程度削減されるか (純度ゲイン) が計算されます。次に、各変数について、それが使用されているすべての分割 (ノードで使用されているサンプルの数で重み付け) およびすべてのツリーにわたって合計します。次に、最大の純度ゲインを持つ変数を見つけ、すべての変数にわたってこの値で除算します。
アルパイン フォレスト回帰では、不純物関数として分散減少法 (Variance Reduction) を使用します。

-
個別のツリー統計 - モデル内の各デシジョン ツリーの結果を最大 20 個のツリーまで表示します。

-
平均ツリー統計 - モデルで使用されている各ツリーのスナップショットのサマリーを提供します。
- モデル内のツリーの総数
- 使用されるトレーニング サンプルの平均数
- ドロップされたトレーニング サンプルの平均数
- 非リーフ ノードの平均数
- 平均リーフ数
- モデルに使用される不純物関数

次の図は、アルパイン フォレスト 回帰オペレーターの 予測器 オペレーターからの出力を示しています。

P_ column は、モデルの精度を評価するために、依存カラム (この場合は Column9) の実際の値と比較できます。
例