デシジョン ツリー回帰 - CART

複数の独立したカラムに基づいて数値カラムの値を予測する決定木を生成します。

情報一覧

パラメーター

説明
カテゴリー モデル
MADlib バージョン 1.8+
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール MADlib

このオペレーターは、MADlib 組み込み関数 tree_train() を使用します。生成されたツリーはバイナリ ツリーであり、各ノードは分岐条件または予測値のいずれかを表します。オペレーターの出力は、予測行列または混同行列に送信できます。MADlib 1.8 以降がデータベースにインストールされている必要があります。

重要: MADlib がカラム名を処理する方法が変更されたため、このオペレーターは MADlib 1.7.1 以前では機能しません。古いバージョンの MADlib をお持ちの場合は、代わりに デシジョン ツリー - MADlib の使用を検討してください。

デシジョン ツリーの操作の詳細については、「デシジョン ツリーを使用した分類モデリング」を参照してください。

入力

入力テーブルには、予測する単一の数値 (浮動小数点) カラムと、入力として機能する 1 つ以上の独立したカラムが必要です。

値が不正または欠落しています
ソーステーブル内の予測カラムまたは独立カラムの Null 値を含む行はすべて無視されます。

制限事項

このオペレーターは、MADlib 1.8 以降がインストールされているデータベースでのみ機能します。ソース データ テーブルには、ソース テーブル内の各行を一意に識別する数値 ID カラムが必要です。予測カラムは数値である必要があり、すべての予測は倍精度値です。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
MADlib スキーマ MADlib がインストールされているスキーマの名前。デフォルトでは、これは madlib です。
ID カラム すべてのソース テーブルには、各行を一意に識別するための数値 ID カラムが必要です。
従属変数 予測する数値カラムの名前。これは浮動小数点カラムである必要があります。
機能リスト 従属変数を予測するための独立変数として使用する 1 つ以上のカラムの選択。
モデル出力スキーマ MADlib で生成された出力テーブルに使用するスキーマの名前。
モデル出力テーブル MADlib で生成された出力テーブルの名前。このテーブルはツリー トレーナーによって生成されます。同じ名前と接尾辞 _summary を持つ追加のテーブルも生成されます。
モデル出力テーブルが存在する場合は削除しますか? はい の場合、前回の実行で生成された出力テーブルが最初に削除されます。 [いいえ] の場合、およびツリー トレーナーの実行時にテーブルがすでに存在している場合は、エラーが発生します。
分割基準 ツリー生成時に分岐ノードを計算するアルゴリズム。回帰テーブルの場合、このアルゴリズムは常に mse です。
ツリーの最大深さ 生成されたツリーはこの深さを超えません。指定しない場合、デフォルトは 10 です。
分割前の最小限の観察 指定しない場合、デフォルトは 20 です。
ターミナルノードでの最小限の観測値 指定しない場合、デフォルトは分割前の最小観測値を 3 で割った値になります。
分割境界のビンの数 指定しない場合、デフォルトは 100 です。

出力

ビジュアル出力

このオペレーターは次のタブを生成します。

  • デシジョン ツリー テキスト - 生成されたデシジョン ツリーのテキスト表現が含まれます。各ブランチ ノードには、多数の行と予測が含まれています。分岐ノードには分岐条件も含まれます。
  • デシジョン ツリー グラフ - ツリー グラフが含まれます。分岐は分割条件と関連する予測を反映します。

その他の注意事項

後続のオペレーターへの出力
このオペレーターを次の後続のオペレーターに接続します。
  • 予測
  • 混同行列