デシジョン ツリー分類 - CART
MADlib 組み込み関数 tree_train() を使用して、複数の独立した カラムに基づいてカテゴリー カラムの値を予測する決定木を生成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| MADlib バージョン | 1.8+ |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | なし |
生成されたツリーはバイナリ ツリーであり、各ノードは分岐条件または予測値のいずれかを表します。オペレーターの出力は、予測行列または混同行列に送信できます。MADlib 1.8 以降がデータベースにインストールされている必要があります。
重要: MADlib が カラム名を処理する方法が変更されたため、このオペレーターは MADlib 1.7.1 以前では機能しません。古いバージョンの MADlib を使用している場合は、代わりに デシジョン ツリー - MADlib の使用を検討してください。
デシジョン ツリーの操作の詳細については、「デシジョン ツリーを使用した分類モデリング」を参照してください。
入力
入力テーブルには、予測する単一のカテゴリー(文字列または整数) カラムと、入力として機能する 1 つ以上の独立した カラムが必要です。
値が不正または欠落しています
ソース表では、予測 カラムまたは独立カラムの Null 値を含む行は無視されます。
制限事項
- このオペレーターは、MADlib 1.8 以降がインストールされているデータベースでのみ機能します。
- ソース データ テーブルには、ソース テーブル内の各行を一意に識別する数値 ID カラムが必要です。
- 予測 カラムは数値である必要があり、すべての予測は倍精度値です。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| MADlib スキーマ | MADlib がインストールされているスキーマの名前。デフォルトでは、これは madlib です。 |
| モデル出力スキーマ | MADlib で生成された出力テーブルに使用するスキーマの名前。 |
| モデル出力テーブル | MADlib で生成された出力テーブルの名前。このテーブルはツリー トレーナーによって生成されます。同じ名前とサフィックス _summary を持つ追加のテーブルも生成されます。 |
| 存在する場合は削除 |
|
| ID カラム | すべてのソース テーブルには、各行を一意に識別するための数値 ID カラムが必要です。 |
| 従属変数 | 予測する数値カラムの名前。これは浮動小数点 カラムである必要があります。 |
| 機能リスト | [カラムの選択] をクリックして、従属変数を予測するための独立変数として使用する 1 つ以上のカラムを指定します。詳細については、カラムの選択ダイアログ を参照してください。 |
| 分割基準 | ツリー生成中に分岐ノードを計算するために使用するアルゴリズム。カテゴリーテーブルの場合、これは ジニ、エントロピー、または 誤分類である必要があります。デフォルトは ジニ です。 |
| ツリーの最大深さ | 生成されたツリーはこの深さを超えません。指定しない場合、デフォルトは 10 です。 |
| 分割前の最小限の観察 | 指定しない場合、デフォルトは 20 です。 |
| ターミナルノードでの最小限の観測値 | 指定しない場合、デフォルトは分割前の最小観測値を 3 で割った値になります。 |
| 分割境界のビンの数 | 指定しない場合、デフォルトは 100 です。 |
出力
ビジュアル出力
このオペレーターは次のタブを生成します。
- デシジョン ツリー テキスト - 生成されたデシジョン ツリーのテキスト表現が含まれます。各ブランチ ノードには、多数の行と予測が含まれています。分岐ノードには分岐条件も含まれます。
- デシジョン ツリー グラフ - ツリー グラフが含まれます。分岐は分割条件と関連する予測を反映します。
例