デシジョン ツリー分類 - CART

MADlib 組み込み関数 tree_train() を使用して、複数の独立した カラムに基づいてカテゴリー カラムの値を予測する決定木を生成します。

情報一覧

パラメーター

説明
カテゴリー モデル
MADlib バージョン 1.8+
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし

生成されたツリーはバイナリ ツリーであり、各ノードは分岐条件または予測値のいずれかを表します。オペレーターの出力は、予測行列または混同行列に送信できます。MADlib 1.8 以降がデータベースにインストールされている必要があります。

重要: MADlib が カラム名を処理する方法が変更されたため、このオペレーターは MADlib 1.7.1 以前では機能しません。古いバージョンの MADlib を使用している場合は、代わりに デシジョン ツリー - MADlib の使用を検討してください。

デシジョン ツリーの操作の詳細については、「デシジョン ツリーを使用した分類モデリング」を参照してください。

入力

入力テーブルには、予測する単一のカテゴリー(文字列または整数) カラムと、入力として機能する 1 つ以上の独立した カラムが必要です。

値が不正または欠落しています
ソース表では、予測 カラムまたは独立カラムの Null 値を含む行は無視されます。

制限事項

  • このオペレーターは、MADlib 1.8 以降がインストールされているデータベースでのみ機能します。
  • ソース データ テーブルには、ソース テーブル内の各行を一意に識別する数値 ID カラムが必要です。
  • 予測 カラムは数値である必要があり、すべての予測は倍精度値です。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
MADlib スキーマ MADlib がインストールされているスキーマの名前。デフォルトでは、これは madlib です。
モデル出力スキーマ MADlib で生成された出力テーブルに使用するスキーマの名前。
モデル出力テーブル MADlib で生成された出力テーブルの名前。このテーブルはツリー トレーナーによって生成されます。同じ名前とサフィックス _summary を持つ追加のテーブルも生成されます。
存在する場合は削除
  • [はい] (デフォルト) の場合、同じ名前の既存のテーブルを削除し、新しいテーブルを作成します。
  • [いいえ] の場合、フローを停止し、エラーが発生したことをユーザーに警告します。
ID カラム すべてのソース テーブルには、各行を一意に識別するための数値 ID カラムが必要です。
従属変数 予測する数値カラムの名前。これは浮動小数点 カラムである必要があります。
機能リスト [カラムの選択] をクリックして、従属変数を予測するための独立変数として使用する 1 つ以上のカラムを指定します。詳細については、カラムの選択ダイアログ を参照してください。
分割基準 ツリー生成中に分岐ノードを計算するために使用するアルゴリズム。カテゴリーテーブルの場合、これは ジニエントロピー、または 誤分類である必要があります。デフォルトは ジニ です。
ツリーの最大深さ 生成されたツリーはこの深さを超えません。指定しない場合、デフォルトは 10 です。
分割前の最小限の観察 指定しない場合、デフォルトは 20 です。
ターミナルノードでの最小限の観測値 指定しない場合、デフォルトは分割前の最小観測値を 3 で割った値になります。
分割境界のビンの数 指定しない場合、デフォルトは 100 です。

出力

ビジュアル出力

このオペレーターは次のタブを生成します。

  • デシジョン ツリー テキスト - 生成されたデシジョン ツリーのテキスト表現が含まれます。各ブランチ ノードには、多数の行と予測が含まれています。分岐ノードには分岐条件も含まれます。
  • デシジョン ツリー グラフ - ツリー グラフが含まれます。分岐は分割条件と関連する予測を反映します。

その他の注意事項

後続のオペレーターへの出力
このオペレーターを次の後続のオペレーターに接続します。
  • 予測
  • 混同行列