デシジョン ツリー - MADlib

TIBCO Data Science - Team Studio は、MADlib デシジョン ツリー モデルの実装をサポートしています。

情報一覧

パラメーター

説明
カテゴリー モデル
MADlib バージョン < 1.8
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし

デシジョン ツリーの操作の詳細については、「デシジョン ツリーを使用した分類モデリング」を参照してください。

アルゴリズム

デシジョン ツリー (MADlib) オペレーターは、デシジョン ツリー構造を構築するための C4.5 決定論的手法をサポートしており、ユーザーは情報ゲイン、ジニ係数、またはゲイン比を分割基準として選択できます。MADlib 実装では、決定木の枝刈りや欠損値の処理もサポートされています。

MADlib デシジョン ツリーは「開発の初期段階」のアルゴリズムとみなされることに注意してください。

一般原則を含む詳細については、公式 MADlib ドキュメントを参照してください。

入力

モデリング用の従属変数と独立変数を含むデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
MADlib スキーマ名 MADlib がデータベースにインストールされるスキーマ。MADlib は、入力データセットと同じデータベースにインストールする必要があります。madlib スキーマがデータベースに存在する場合、このパラメーターのデフォルトは madlib です。
分割基準 ツリーの各ノードでのデータの分割を決定するために使用される基準。分割基準には、情報利得ジニ係数、または情報ゲイン率を指定できます。
モデル出力スキーマ名 出力が保存されるスキーマの名前。
モデル出力テーブル名 回帰モデルを保存するために作成されるテーブルの名前。モデル出力テーブルには以下が保存されます。

id | tree_location | feature | probability | ebp_coeff | maxclass | scv | live | sample_size | parent_id | lmc_nid | lmc_fval | is_continuous | split_value | tid | dp_ids

詳細については、「公式 MADlib デシジョン ツリー ドキュメント」を参照してください。

存在する場合は削除
  • [はい] (デフォルト) の場合、同じ名前の既存のテーブルを削除し、新しいテーブルを作成します。
  • [いいえ] の場合、フローを停止し、エラーが発生したことをユーザーに警告します。
検証テーブル名 学習されたデシジョン ツリー モデルにスコアを付けるための検証データセットのテーブル名。検証セット内で正しく分類された項目の比率が示されます。

デフォルト値: Null (または検証テーブルなし)。

継続的な機能 ユーザーは、決定木トレーニング用に連続 独立変数 データカラムを選択できます。

少なくとも 1 つの 連続特徴 カラムまたは 1 つの カテゴリ特徴 カラムを指定する必要があります。

カラム名 をクリックして、入力データセットから分析に使用できるカラムを選択するためのダイアログを開きます。

カテゴリ特徴 ユーザーは、デシジョン ツリー トレーニングに含めるカテゴリ別 独立変数 データカラムを選択できます。

少なくとも 1 つの 連続特徴 カラムまたは 1 つの カテゴリ特徴 カラムを指定する必要があります。

クラス カラム 必要。依存変数となるデータ カラム。これはモデル化または予測する量です。
信頼レベル 枝刈りの悲観的誤差アルゴリズムに使用する信頼度の境界を指定します。

信頼レベル は、デシジョン ツリー アルゴリズムの枝刈りフェーズを制御します。

  • 枝刈りフェーズでは、信頼区間を使用してノードの「最悪の場合」のエラー率を推定します。
  • 信頼レベルは、リーフ ノードでエラーが見つかる可能性の確実性係数または上限です。
  • ノードのエラー率がこの信頼限界を超える場合、そのノードはプルーニングされます。これを、リーフ ノードに誤った分類が存在する確率と考えてください。
  • より高い 信頼レベル 値を設定すると、モデルで個々のエラー率がより高い (枝刈りが少なくなる) ノードを使用できるようになります。
  • 信頼レベル の値を低く設定すると、エラーに対する許容度が低くなり、より多くの枝刈りが行われることを示します。

デフォルト値: 25。リーフ ノード分類セットにエラーが存在する確率が 25% であることを表します。

欠損値の処理 データセット内の欠損値を処理する方法を指定します。
  • 無視 - 欠損値は無視されます。
  • 明示的 - 欠損値は、特徴量の平均値で明示的に置き換えられます。

デフォルト値: 無視

ツリーの最大深さ ツリーの「深さ」、またはルート ノードの下に分岐できるデシジョン ノードの最大数を設定します。ノードが空になる(つまり、現在のノードに分割するサンプルがなくなる)か、ツリーの深さがこの 最大ツリー深さ 制限を超えると、ツリーはそれ以上深く成長しなくなります。

最大ツリー深度は、ツリーの成長段階で使用されます。

値は 0 より大きくなければなりません。

デフォルト値: 10

ノードプルーンしきい値 子ノードに必要なレコード数の最小パーセンテージ。このしきい値は、非ルート ノードにのみ適用されます。

値は \[0,1\] 内になければなりません。

  • 値が 1 の場合、トレーニング済みツリーには 1 つのノード (ルート ノード) のみが含まれます。
  • 値が 0 の場合、このパラメーターによってノードはプルーニングされません。
ノート: 枝刈りを使用すると、デシジョン ツリーのオーバー フィッティングを回避できます。

ノード分割しきい値 さらなる分割を可能にするためにノード内で必要なレコード数の最小パーセンテージ。

値は \[0,1\] 内になければなりません。

  • 値が 1 の場合、ルート ノードのみが成長できるため、トレーニングされたツリーには 2 つのレベルしかありません。
  • 値が 0 の場合、ツリーは広範囲に成長する可能性があります。

Verbosity トレーニング結果のすべての出力をログに記録するかどうかを示すブール値。デフォルト: false

出力

ビジュアル出力
デシジョン ツリー (MADlib) オペレーターには、直感的な出力、つまり、含まれるデータセット行 (メンバー) の数を示すリーフ ノードを含む分類ツリー構造があります。

サブノードが UI に表示されていない場合は、デシジョン ツリー ノードをダブルクリックします。

その他の注意事項

出力の詳細

このオペレーターを次の後続のオペレーターに接続します。

  • 予測オペレーター
  • スコアリング オペレーター (ROC など)

デシジョン ツリーの有効性を効果的に分析するには、後続のオペレーターが必要です。 予測器 オペレーターは、実際のデータセットのトレーニング値および関連する信頼レベルと比較して、各データ行の予測値を提供します。

ROC グラフなどの追加のスコアリング オペレーターを追加することも、デシジョン ツリー モデルの予測性を即座に評価するのに役立ちます。ROC グラフの場合、0.80 を超える AUC 値は通常、「良好な」モデルとみなされます。値 0.5 は、モデルが半分の確率で正しい答えを推測できる「愚かな」モデルと同等であることを意味します。

予測器 オペレーターからの出力は次のようになります。

  • 予測値 (Yes または No) では、予測が行われる信頼度が 50% を超えるしきい値の仮定が使用されます。
  • C(Yes) カラムは、従属値が 1 であるという信頼度を示します。
    ノート: 通常、これは 10 進数値です。この場合、データセットは小さく、例として作成されます。
  • C(No) カラムは、従属値が 0 である信頼度を示します。

次の例は、デシジョン ツリー オペレーターの一般的な分析フロー構成を示しています。