ランダム フォレスト回帰

このオペレーターは、Spark MLlib のランダム フォレスト回帰アルゴリズムを実装します。

ランダム フォレスト回帰アイコン

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー モデル
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

ランダム フォレスト回帰は、アンサンブルの数値回帰ツリー予測を平均することによって数値予測を生成するアンサンブル ツリー アルゴリズムです。交差検証トレーニング方法を使用して、対象のハイパーパラメーターを微調整できます。オペレーターは、指定されたメトリックを使用してパフォーマンスを評価します。オペレーターの出力は、最高の検証パフォーマンスを持つモデル オブジェクトです。このオペレーターは、Spark MLlib のランダム フォレスト回帰アルゴリズムを実装します。

入力

入力は単一の表形式のデータセットです。

不正な値または欠落している値
Null 値は許されず、エラーとなります 。

構成

次の表に、ランダム フォレスト回帰オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
従属変数 データカラムを依存カラムとして指定します。連続数値変数である必要があります。
利用可能なすべてのカラムを予測子として使用する [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。
連続予測子 数値データカラムを独立したカラムとして指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。
ノート: [カテゴリー予測子] パラメーターで選択されたカラムは使用できません。
カテゴリー予測子 カテゴリー データ カラムを独立カラムとして指定します。
ノート: [連続予測子] パラメーターで選択されたカラムは使用できません。
評価指標 回帰モデルを評価するためのメトリックを指定します。次の値が使用可能です。
  • MSE
  • MSE
  • R2
  • RMSE

詳細については、分類と回帰に関する Apache Spark ドキュメントを参照してください。

デフォルト: RMSE

特徴関数の数 各決定木を構築するための特徴の数を決定する関数を指定します。次の値が使用可能です。
  • すべて
  • 1/3
  • 平方根
  • log2
  • ユーザー定義

デフォルト: 平方根

特徴サンプリング率 [機能関数の数][ユーザー定義] オプションに設定されている場合に、ノードごとに使用する機能の数の割合を指定します。このパラメーターの入力は、(0,1) のカンマ区切りの数値シーケンスである必要があります。

デフォルト: 0.5,0.7

ノート: [機能関数の数][ユーザー定義] が選択されていない場合、このパラメーターは無視されます。
最大深度 各ツリーの最大深さを指定します。このパラメーターの入力は、0 ~ 30 の整数値のコンマ区切りシーケンスである必要があります。

デフォルト: 3,5

ツリーの数 ツリーの総数を指定します。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります。

デフォルト: 10,100

行サンプリング率 各決定木を構築するためのトレーニング データの割合を指定します。このパラメーターの入力は、(0,1) 内の double 値のカンマ区切りシーケンスである必要があります。

デフォルト: 1

最小リーフ サイズ デシジョン ツリーの末端リーフ ノード内のデータ インスタンスの最小数を指定します。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります。 (例: 1,2)

デフォルト: 1

最大ビン数 連続フィーチャの離散化と分割に使用するビンの最大数を指定します。このパラメーターの入力は、コンマで区切られた整数値のシーケンス (たとえば、256) である必要があります。
ノート: 最大ビン数の値は、選択したカテゴリー カラムの一意のレベルの数より大きくなければなりません。

デフォルト: 32

交差検証フォールドの数 交差検証サンプルの数を指定します。

デフォルト: 3

ランダム シード 擬似ランダム生成に使用するシード。

デフォルト: 1

出力

ビジュアル出力
  • パラメーターサマリー情報: 入力パラメーターとその現在の設定に関する情報が表示されます。
  • 変数の重要度: トレーニング プロセスで評価された予測子の重要度を表示します。各予測変数について、モデルの変数の重要度が 2 番目のカラムに表示されます。これにより、モデルの予測に対する特定のパラメーターの重要性または影響が示されます。
  • トレーニング サマリー: テストされたハイパーパラメーターの組み合わせごとに行を含む表が表示されます。各行に、選択したメトリックが表示され、最適なモデルがマークされます。この情報により、最適なモデルをもたらしたパラメーターについてのインサイトが得られます。
後続のオペレーターへの出力
予測器 オペレーターとともに使用できる回帰モデル オブジェクト。 予測器 オペレーターで追加のカラムが 1 つ生成されます。
  • PRED_RFR: 回帰モデルの予測値。
回帰評価器 オペレーターとも使用できる回帰モデル オブジェクト。

次の例は、ランダム フォレスト回帰オペレーターを示しています。

Random_Forest_Regression_ワークフロー

データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • 従属変数: 温度
  • 使用可能なすべてのカラムを予測子として使用する: いいえ
  • 連続予測変数: 湿度

  • カテゴリ予測変数: 天気概況、風、遊び

  • 評価指標: RMSE

  • 特徴関数の数: 平方根

  • 特徴サンプリング比 (0,1): 0.5、0.7

  • 最大深度: 3、5

  • ツリーの数: 10、100

  • 行サンプリング率: 1

  • 最小リーフ サイズ: 1

  • 最大ビン数: 32

  • 交差検証フォールドの数: 3

  • ランダム シード: 1

結果
これらの図は、golf データセットのパラメーター設定の結果を示しています。
パラメーター サマリー情報
Random_Forest_Regression_Parameter のサマリー情報
変数の重要性
Random_Forest_Regression_Variable の重要度
トレーニング サマリー
Random_Forest_Regression_Training のサマリー