勾配ブースト ツリー回帰

このオペレーターは、 Spark ML の勾配ブースト ツリー回帰アルゴリズムを実装します。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー モデル
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

勾配ブースト ツリー アルゴリズムは、一連の浅い回帰ツリーが前のツリーの予測誤差を段階的に減少させる予測手法です。このオペレーターは、Spark MLlib のオープンソースの Gradient-Boosted Tree Regression (GBTR) アルゴリズムを実装します。

入力

入力は単一の表形式のデータセットです。

不正な値または欠落している値
  • Null 値は許されず、エラーとなります 。
  • 最大ビン数 パラメーターは、カテゴリ特徴量の最大カーディナリティまで増やす必要があります。ただし、利用可能なリソースによっては、システムが非常に高い値を処理できず、エラーが発生する場合があります。

  • 依存カラムのレベル数が 2 に等しくない場合、エラーが報告されます。

構成

ユーザーは、交差検証トレーニング手法を使用して関心のあるハイパーパラメーターを微調整し、選択したメトリクスを利用してパフォーマンスを評価できます。次の表には、勾配ブースト ツリー回帰オペレーターの構成の詳細が含まれています。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
従属変数 カテゴリカル データカラムを依存カラムとして指定します。
利用可能なすべてのカラムを予測子として使用する [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。
連続予測子 数値データカラムを独立したカラムとして指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。
ノート: カテゴリー予測子 パラメーターで選択されたカラムは使用できません。
カテゴリー予測子 カテゴリデータカラムを独立列として指定します。
ノート: 連続予測子 パラメーターで選択されたカラムは使用できません。
評価指標 回帰モデルを評価するための指標。次の値が使用可能です。

  • MAE
  • MSE
  • R2
  • RMSE

デフォルト: RMSE

損失関数 最小化する損失関数。次の値が使用可能です。
  • L1 (絶対値損失関数)

  • L2 (二乗値損失関数)

デフォルト: L1

ツリーの数 ツリーの数を指定する文字列。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります (10、100 など)。

デフォルト: 100

特徴関数の数 各決定木を構築するための特徴の数を決定する関数。次の値が使用可能です。
  • すべて
  • 1/3
  • 平方根
  • Log2
  • ユーザー定義

デフォルト: 平方根

特徴サンプリング率 機能関数の数ユーザー定義に設定されている場合に使用するノードあたりの機能の数の割合。このパラメーターの入力は、(0,1) の double 値のカンマ区切りシーケンスである必要があります。

デフォルト: 0.5、0.7

最大深度 各ツリーの最大深さ。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります。

デフォルト: 3、5

行サンプリング率 各デシジョン ツリーを構築するためのトレーニング データの割合。このパラメーターの入力は、(0,1) の double 値のカンマ区切りシーケンスである必要があります。

デフォルト: 1

最小リーフ サイズ デシジョン ツリーの末端リーフ ノード内に存在できるデータ インスタンスの最小数。このパラメーターの入力は、コンマで区切られた一連の整数値 (1,2 など) である必要があります。

デフォルト: 1

最大ビン数 連続フィーチャの離散化と分割に使用されるビンの最大数。このパラメーターの入力は、コンマで区切られた整数値のシーケンス (たとえば、256) である必要があります。 最大ビン数 の数は、選択したカテゴリー カラムの一意のレベルの数よりも大きくする必要があります。

デフォルト: 32

学習率 各推定量の寄与を制御する収縮パラメータ。このパラメーターの入力は、間隔 (0,1) の double 値のカンマ区切りシーケンスである必要があります。

デフォルト: 0.1

交差検証フォールドの数 交差検証サンプルの数。

デフォルト: 3

ランダム シード 擬似ランダム行抽出に使用されるシード。

デフォルト: 1

出力

ビジュアル出力
  • パラメーターサマリー情報 入力パラメーターとその現在の設定に関する情報を表示します。
  • 変数の重要度 トレーニング プロセスで評価された予測子の重要性を表示します。各予測変数について、モデルの重要性が 2 番目のカラムに表示されます。

  • トレーニングのサマリー テストされたハイパーパラメーターの組み合わせごとに行を含む表が表示されます。ハイパーパラメーターごとに、選択したメトリックが表示され、最適なモデルがマークされます。

後続のオペレーターへの出力
オペレーターの出力は、最高の検証パフォーマンスを持つモデル オブジェクトです。この回帰モデル オブジェクトは、互換性のある 予測器 オペレーターとともに使用できます。 1 つの追加列 PRED_GBTR (回帰モデルの予測値) が 予測器 オペレーターで生成されます。
回帰評価 オペレーターとも使用できる回帰モデル オブジェクト。

次の例は、勾配ブースト回帰オペレーターを示しています。

勾配ブースト ツリー回帰ワークフローの例
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • 従属変数: 湿度

  • 使用可能なすべてのカラムを予測子として使用する: はい

  • 評価指標: MAE

  • 損失関数: L1

  • ツリーの数: 100

  • 特徴量関数: 平方根

  • 特徴サンプリング率: 0.5、0.7

  • 最大深度: 3、5

  • 行サンプリング率: 1

  • 最小リーフ サイズ: 1

  • 最大ビン数: 32

  • 学習率: 0.1

  • 交差検証フォールドの数: 3

  • ランダム シード: 1

結果
これらの図は、golf データセットのパラメーター設定の結果を示しています。
パラメーターのサマリー情報
Gradient_Boosted_Tree_Regression_Parameter のサマリー情報
差異の重要性
Gradient_Boosted_Tree_Regression_Variance の重要度
トレーニングのサマリー
Gradient_Boosted_Tree_Regression_Training のサマリー