ランダム フォレスト回帰
このオペレーターは、Spark MLlib のランダム フォレスト回帰アルゴリズムを実装します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
ランダム フォレスト回帰は、アンサンブルの数値回帰ツリー予測を平均することによって数値予測を生成するアンサンブル ツリー アルゴリズムです。交差検証トレーニング方法を使用して、対象のハイパーパラメーターを微調整できます。オペレーターは、指定されたメトリックを使用してパフォーマンスを評価します。オペレーターの出力は、最高の検証パフォーマンスを持つモデル オブジェクトです。このオペレーターは、Spark MLlib のランダム フォレスト回帰アルゴリズムを実装します。
入力
入力は単一の表形式のデータセットです。
構成
次の表に、ランダム フォレスト回帰オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 従属変数 | データカラムを依存カラムとして指定します。連続数値変数である必要があります。 |
| 利用可能なすべてのカラムを予測子として使用する | [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。 |
| 連続予測子 | 数値データカラムを独立したカラムとして指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。 ノート: [カテゴリー予測子] パラメーターで選択されたカラムは使用できません。 |
| カテゴリー予測子 | カテゴリー データ カラムを独立カラムとして指定します。 ノート: [連続予測子] パラメーターで選択されたカラムは使用できません。 |
| 評価指標 | 回帰モデルを評価するためのメトリックを指定します。次の値が使用可能です。
詳細については、分類と回帰に関する Apache Spark ドキュメントを参照してください。 デフォルト: RMSE |
| 特徴関数の数 | 各決定木を構築するための特徴の数を決定する関数を指定します。次の値が使用可能です。
デフォルト: 平方根 |
| 特徴サンプリング率 | [機能関数の数] が [ユーザー定義] オプションに設定されている場合に、ノードごとに使用する機能の数の割合を指定します。このパラメーターの入力は、(0,1) のカンマ区切りの数値シーケンスである必要があります。デフォルト: ノート: [機能関数の数] で [ユーザー定義] が選択されていない場合、このパラメーターは無視されます。 |
| 最大深度 | 各ツリーの最大深さを指定します。このパラメーターの入力は、0 ~ 30 の整数値のコンマ区切りシーケンスである必要があります。 デフォルト: |
| ツリーの数 | ツリーの総数を指定します。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります。 デフォルト: |
| 行サンプリング率 | 各決定木を構築するためのトレーニング データの割合を指定します。このパラメーターの入力は、(0,1) 内の double 値のカンマ区切りシーケンスである必要があります。デフォルト: |
| 最小リーフ サイズ | デシジョン ツリーの末端リーフ ノード内のデータ インスタンスの最小数を指定します。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります。 (例: 1,2)デフォルト: |
| 最大ビン数 | 連続フィーチャの離散化と分割に使用するビンの最大数を指定します。このパラメーターの入力は、コンマで区切られた整数値のシーケンス (たとえば、256) である必要があります。 ノート: 最大ビン数の値は、選択したカテゴリー カラムの一意のレベルの数より大きくなければなりません。 デフォルト: |
| 交差検証フォールドの数 | 交差検証サンプルの数を指定します。 デフォルト: |
| ランダム シード | 擬似ランダム生成に使用するシード。
デフォルト: |
出力
- パラメーターサマリー情報: 入力パラメーターとその現在の設定に関する情報が表示されます。
- 変数の重要度: トレーニング プロセスで評価された予測子の重要度を表示します。各予測変数について、モデルの変数の重要度が 2 番目のカラムに表示されます。これにより、モデルの予測に対する特定のパラメーターの重要性または影響が示されます。
- トレーニング サマリー: テストされたハイパーパラメーターの組み合わせごとに行を含む表が表示されます。各行に、選択したメトリックが表示され、最適なモデルがマークされます。この情報により、最適なモデルをもたらしたパラメーターについてのインサイトが得られます。
例
次の例は、ランダム フォレスト回帰オペレーターを示しています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
- 従属変数: 温度
- 使用可能なすべてのカラムを予測子として使用する: いいえ
-
連続予測変数: 湿度
-
カテゴリ予測変数: 天気概況、風、遊び
-
評価指標: RMSE
-
特徴関数の数: 平方根
-
特徴サンプリング比 (0,1): 0.5、0.7
-
最大深度: 3、5
-
ツリーの数: 10、100
-
行サンプリング率: 1
-
最小リーフ サイズ: 1
-
最大ビン数: 32
-
交差検証フォールドの数: 3
-
ランダム シード: 1