ランダム フォレスト分類
このオペレーターは、Spark MLlib からランダム フォレスト分類アルゴリズムを実装します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
ランダム フォレスト分類は、アンサンブルの数値分類ツリー予測を平均することによってカテゴリカル予測を行う、分類タスクに対するアンサンブル ツリー アルゴリズムです。交差検証トレーニング方法を使用して、対象のハイパーパラメーターを微調整できます。オペレーターは、指定されたメトリックを使用してパフォーマンスを評価します。オペレーターの出力は、最高の検証パフォーマンスを持つモデル オブジェクトです。このオペレーターは、Spark MLlib からランダム フォレスト分類アルゴリズムを実装します。
入力
入力は単一の表形式のデータセットです。
構成
次の表に、ランダム フォレスト分類オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 従属変数 | カテゴリカル データカラムを依存カラムとして指定します。これは数値である必要があり、ラベルやクラスを値とすることはできません。 |
| 利用可能なすべてのカラムを予測子として使用する | [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。 |
| 連続予測子 | 数値データカラムを独立したカラムとして指定します。数値列である必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。 ノート: [カテゴリー予測子] パラメーターで選択されたカラムは使用できません。 |
| カテゴリー予測子 | カテゴリデータカラムを独立列として指定します。 ノート: [連続予測子] パラメーターで選択されたカラムは使用できません。 |
| 不純物 | ランダム フォレスト モデルをトレーニングする際の情報ゲインを計算するための基準を指定します。次の値が使用可能です。
デフォルト: ジニ |
| 評価指標 | 交差検証トレーニング中にモデルのパフォーマンスを評価するためのメトリックを指定します。次の値が使用可能です。
詳細については、分類と回帰に関する Apache Spark ドキュメントを参照してください。 ノート: [FMeasure] のベータ パラメーターの値は 1 に設定されます。 ユーザーが [自動] を選択した場合、オペレーターは [精度] を使用します。 デフォルト: 自動 |
| 特徴関数の数 | 各決定木を構築するための特徴の数を決定する関数を指定します。次の値が使用可能です。
デフォルト: 平方根 |
| 特徴サンプリング率 | 機能関数の数 が ユーザー定義 オプションに設定されている場合に、ノードごとに使用する機能の数の割合を指定します。このパラメーターの入力は、(0,1) 内のダブル値のカンマ区切りシーケンスである必要があります。デフォルト: |
| 最大深度 | 各ツリーの最大深さを指定します。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります。 デフォルト: |
| ツリーの数 | ツリーの総数を指定します。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります。 デフォルト: |
| 行サンプリング率 | 各決定木を構築するためのトレーニング データの割合を指定します。このパラメーターの入力は、(0,1) 内のダブル値のカンマ区切りシーケンスである必要があります。デフォルト: |
| 最小リーフ サイズ | デシジョン ツリーの末端リーフ ノード内に存在できるデータ インスタンスの最小数を指定します。このパラメーターの入力は、コンマで区切られた一連の整数値である必要があります。(例: 1,2)デフォルト: |
| 最大ビン数 | 連続フィーチャの離散化と分割に使用するビンの最大数を指定します。このパラメーターの入力は、コンマで区切られた整数値のシーケンス (たとえば、256) である必要があります。 ノート: 最大ビンの数は、選択したカテゴリー カラムの一意のレベルの数より大きくする必要があります。 最大ビン数 は、カテゴリ特徴量の最大カーディナリティまで増やす必要があります。ただし、利用可能なリソースによっては、システムが非常に高い値を処理できず、エラーが発生する可能性があります。 デフォルト: |
| 交差検証フォールドの数 | 交差検証サンプルの数を指定します。 デフォルト: |
| ランダム シード | 擬似ランダム生成に使用するシード。
デフォルト: |
出力
- パラメーター サマリー情報: 入力パラメーターとその現在の設定に関する情報が表示されます。
- 変数の重要度: トレーニング プロセスで評価された予測子の重要度を表示します。各予測変数について、モデルの変数の重要度が 2 番目のカラムに表示されます。これにより、特定のパラメーターの重要性または影響が示されます。
- トレーニング サマリー: テストされたハイパーパラメーターの組み合わせごとに行を含む表が表示されます。ハイパーパラメーターごとに、選択したメトリックが表示され、最適なモデルがマークされます。この情報により、最適なモデルをもたらしたパラメーターについての洞察が得られます。
例
次の例は、ランダム フォレスト分類オペレーターを示しています。
- 複数のカラム、ここでは、天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
-
従属変数: play (プレー)
-
使用可能なすべてのカラムを予測子として使用する: いいえ
-
連続予測変数: 温度、湿度
-
カテゴリ予測変数: 天気概況
-
不純物: ジニ
-
評価指標: 精度
-
機能関数の数: すべて
-
特徴サンプリング率: 0.5、0.7
-
最大深度: 2、3
-
ツリーの数: 10、100
-
行サンプリング率: 1
-
最小リーフ サイズ: 1
-
最大ビン数: 32
-
交差検証フォールドの数: 3
-
ランダム シード: 1