アルパイン フォレスト - MADlib

MADlib 組み込み関数 forest_train() を使用して複数のデシジョン ツリーを生成し、その組み合わせを使用して複数の独立したカラムに基づいて予測を行います。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール MADlib

ノート: このオペレーターは MADlib 1.8 以降でのみ機能します。

各決定ツリーは、ブートストラップ サンプリングと特徴カラムのランダムなサブセットに基づいて生成されます。このオペレーターの出力先は、アルパイン フォレスト 予測器 (MADlib) オペレーターである必要があります。データベースには、MADlib 1.8 以降がインストールされている必要があります。詳細については、「公式 MADlib ドキュメント」を参照してください。

入力

入力テーブルには、予測する単一のカテゴリー(文字列または整数) または回帰 (浮動小数点) カラムと、入力として機能する 1 つ以上の独立したカラムが必要です。

値が不正または欠落しています
ソーステーブル内の予測カラムまたは独立カラムの Null 値を含む行はすべて無視されます。

制限事項

このオペレーターは、MADlib 1.8 以降がインストールされているデータベースでのみ機能します。ソース データ テーブルには、ソース テーブル内の各行を一意に識別する数値 ID カラムが必要です。予測カラムは、分類ツリーの場合は整数または文字列、回帰ツリーの場合は浮動小数点である必要があります。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
MADlib スキーマ MADlib がインストールされているスキーマの名前。デフォルトでは、スキーマ名は madlib です。
モデル出力スキーマ MADlib で生成された出力テーブルに使用するスキーマの名前。
モデル出力テーブル

MADlib で生成された出力テーブルの名前。このテーブルは森林トレーナーによって生成されます。次の追加テーブルも生成されます。

  • _summary が追加された同じ名前のテーブル。
  • _group が追加された同じ名前のテーブル。

存在する場合は削除
  • [はい] (デフォルト) の場合、同じ名前の既存のテーブルを削除し、新しいテーブルを作成します。
  • [いいえ] の場合、フローを停止し、エラーが発生したことをユーザーに警告します。
ID カラム すべてのソース テーブルには、各行を一意に識別するための数値 ID カラムが必要です。
従属変数 予測するカラムの名前。カラムのデータ タイプが浮動小数点の場合、生成されるツリーは回帰ツリーです。それ以外の場合、生成されるツリーは分類ツリーです。
機能リスト 従属変数を予測するための独立変数として使用する 1 つ以上のカラムの選択。選択するカラムが増えると実行時間が長くなることに注意してください。
ツリーの数 生成するツリーの最大数。MADlib は通常、この数のツリーを生成しますが、実際の数はこれよりわずかに少ない場合があります。デフォルトの数値は 100 です。生成されるツリーの数が増えると、実行時間が増加することに注意してください。
ランダムな特徴の数 各分割で選択するランダムな特徴の数。何も指定されない場合、デフォルトは分類ツリーの場合は n の平方根、回帰ツリーの場合は 3歳以上 です。n はツリーの最大数です。
変数の重要度を計算する 変数の重要度を計算するかどうか。デフォルトは true です。 false の場合、実行時間は減少します。
各特徴の順カラムの数 (変数重要度の場合) 変数の重要度は、変数を確率変数で並べ替え、予測精度の低下を計算することによって計算されます。デフォルト値は 1 で、値が大きいほど実行時間が長くなります。通常は 1 で十分です。
ツリーの最大深さ 生成されたツリーはこの深さを超えず、ルート ノードの深さは 0 になります。指定しない場合、デフォルトは 10 です。ツリーの深さが長くなると、実行時間が長くなる可能性があります。
分割前の最小限の観察 分割を検討する前に、特定のノードで発生する必要がある観測の数。指定しない場合、デフォルトは 20 です。
ターミナル ノードでの最小限の観測値 任意のターミナル ノードの観測値の最小数。指定しない場合、デフォルトは 3歳以上 です。n は分割前の最小観測値です。
分割境界のビン数 連続値特徴の場合、値は分割境界のビンに量子化されます。指定しない場合、デフォルトは 100 です。値を大きくすると、実行時間が長くなります。
サンプリング率 トレーニング用の入力の一部のみを指定します。これは、1 ~ 100 の整数値として指定する必要があります。値が小さいほど、サンプリングされるデータが少なくなるため、実行時間が速くなります。デフォルトは 100 で、すべての入力行がサンプリングされます。

出力

ビジュアル出力

このオペレーターには 3 セットの出力タブがあります。

  • 最初のタブのセットには、生成された各デシジョン ツリーのテキスト表現が含まれています。
  • 2 番目のタブには、生成された各デシジョン ツリーの DOT 表記が含まれます。DOT 表記は、GraphViz などのサードパーティ ツールにエクスポートできます。
  • 3 番目のタブには、MADlib によって生成された生の出力テーブルが含まれています。
    • 1 つ目はモデル出力テーブルです。 gid カラムはグループ ID を表します。現時点ではグループ・バイはサポートされていないため、この値は常に 1 です。sample_id はツリー ID を表します。ツリー カラムは、生成された各決定ツリーをバイナリ形式でエンコードします。
    • 2 番目は出力サマリー テーブルで、ツリーがどのように生成されたかに関する情報が含まれています。ここでは、MADlib トレーニング関数に渡される多くのパラメーターがカラムとして表示されます。
    • 3 番目のタブはグルーピング テーブルで、グルーピングする値の集合ごとに1行ずつあります。グルーピングはサポートされていないので、1行しかありません。

データ出力
このオペレーターの出力は、アルパイン フォレスト 予測器 オペレーターに送る必要があります。