勾配ブーストによるツリー分類
このオペレーターは、Spark ML の勾配ブースト ツリー分類アルゴリズムを実装します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
勾配ブースト ツリー アルゴリズムは、一連の浅いデシジョン ツリーによって以前のツリーの予測誤差を段階的に削減する予測手法です。このオペレーターは、Spark MLlib からの勾配ブースト ツリー分類アルゴリズムを実装します。
入力
入力は単一の表形式のデータセットです。
- Null 値は許されず、エラーとなります 。
-
最大ビン数 パラメーターは、カテゴリ特徴量の最大カーディナリティまで増やす必要があります。ただし、利用可能なリソースによっては、システムが非常に高い値を処理できず、エラーが発生する場合があります。
-
依存カラムのレベル数が 2 に等しくない場合、エラーが報告されます。
構成
ユーザーは、交差検証トレーニング手法を使用して関心のあるハイパーパラメーターを微調整し、指定されたメトリックを使用してパフォーマンスを評価できます。次の表には、勾配ブースト ツリー分類オペレーターの構成の詳細が含まれています。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 従属変数 | カテゴリカル データカラムを依存カラムとして指定します。 |
| 利用可能なすべてのカラムを予測子として使用する | [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。 |
| 連続予測子 | 数値データカラムを独立したカラムとして指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。 ノート: カテゴリー予測子 パラメーターで選択されたカラムは使用できません。 |
| カテゴリー予測子 | カテゴリデータカラムを独立列として指定します。 ノート: 連続予測子 パラメーターで選択されたカラムは使用できません。 |
| 評価指標 | 交差検証トレーニング中にモデルのパフォーマンスを評価するためのメトリック。詳細については、多項ロジスティック回帰に関する Spark ドキュメントを参照してください。 次の値が使用可能です。
Auto の場合、オペレーターは Accuracy を使用します。 ノート: FMeasure のベータ パラメーターの値は 1 に設定されます。 デフォルト: Auto |
| ツリーの数 | ツリーの数を指定する文字列。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります (10、100 など)。 デフォルト: 100 |
| 特徴関数の数 | 各決定ツリーを構築するための特徴の数を決定する関数。次の値が使用可能です。
デフォルト: 平方根 |
| 特徴サンプリング率 | 機能関数の数が ユーザー定義に設定されている場合に使用するノードあたりの機能の数の割合。このパラメーターの入力は、(0,1) の ダブル値のカンマ区切りシーケンスである必要があります。 デフォルト: 0.5、0.7 |
| 最大深度 | 各ツリーの最大深さ。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります。 デフォルト: 3、5 |
| 行サンプリング率 | 各デシジョン ツリーを構築するためのトレーニング データの割合。このパラメーターの入力は、(0,1) の ダブル値のカンマ区切りシーケンスである必要があります。 デフォルト: 1 |
| 最小リーフ サイズ | デシジョン ツリーの末端リーフ ノード内に存在するデータ インスタンスの最小数。このパラメーターの入力は、コンマで区切られた整数値のシーケンス (たとえば、1,2) である必要があります。 デフォルト: 1 |
| 最大ビン数 | 連続フィーチャの離散化と分割に使用されるビンの最大数。このパラメーターの入力は、コンマで区切られた整数値のシーケンス (たとえば、256) である必要があります。 最大ビン数 の数は、選択したカテゴリー カラムの一意のレベルの数よりも大きくする必要があります。 デフォルト: 32 |
| 学習率 | 各推定量の寄与を制御する収縮パラメータ。このパラメーターの入力は、間隔 (0,1) の ダブル値のカンマ区切りシーケンスである必要があります。 デフォルト: 0.1 |
| 交差検証フォールドの数 | 交差検証サンプルの数。 デフォルト: 3 |
| ランダム シード | 擬似ランダム行抽出に使用されるシード。 デフォルト: 1 |
出力
- パラメーターサマリー情報: 入力パラメーターとその現在の設定に関する情報が表示されます。
-
変数の重要度: トレーニング プロセスで評価された予測子の重要度を表示します。各予測変数について、モデルの重要性が 2 番目のカラムに表示されます。
-
トレーニングのサマリー: テストされたハイパーパラメーターの組み合わせごとに行を含む表が表示されます。ハイパーパラメーターごとに、選択したメトリックが表示され、最適なモデルがマークされます。
例
次の例は、勾配ブースト分類オペレーターを示しています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
-
従属変数: プレー
-
使用可能なすべてのカラムを予測子として使用する: はい
-
評価指標: 自動
-
ツリーの数: 100
-
特徴量関数: 平方根
-
特徴サンプリング率: 0.5、0.7
-
最大深度: 3、5
- 行サンプリング率: 1
- 最小リーフ サイズ: 1
- 最大ビン数: 32
- 学習率: 0.1
- 交差検証フォールドの数: 3
- ランダム シード: 1