ロジスティック回帰 - MADlib

2 項ロジスティック回帰 (MADlib) オペレーターは、2 値従属変数と 1 つ以上の予測子変数の間の関係をモデル化します。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール MADlib

アルゴリズム

  • 従属変数は、ブール式で表すことができるブール値です。
  • (2 項) ロジスティック回帰は、従属二分変数の条件付き平均が独立変数のベクトルのアフィン関数のロジスティック関数である確率モデルを指します。
  • ロジスティック回帰では、観測値の尤度を最大化する係数のベクトルが見つかります。
  • 現在、MADlib のロジスティック回帰では、次の 3 つのアルゴリズムのいずれかを使用できます。
    • 反復的に再重み付けされた最小二乗法
    • 文献では Fletcher-Reeves 法としても知られる共役勾配アプローチ。Hestenes-Stiefel 則を使用してステップ サイズを計算します。
    • 増分勾配降下法。文献では増分勾配法または確率的勾配降下法とも呼ばれます。

詳細については、公式 MADlib ドキュメントを参照してください。

入力

モデリング用の従属変数と独立変数を含むデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
MADlib スキーマ名 MADlib がデータベースにインストールされるスキーマ。MADlib は、入力データセットと同じデータベースにインストールする必要があります。

「madlib」スキーマがデータベースに存在する場合、このパラメーターはデフォルトで madlib になります。

モデル出力スキーマ名 出力が保存されるスキーマの名前。
モデル出力テーブル 回帰モデルを格納するために作成されるテーブルの名前。具体的には、次のようなモデル出力テーブルに格納されます。[ group_col_1 | group_col_2 | ... |] coef | log_likelihood | std_err | z_stats | p_values | odds_ratios | condition_no | num_iterations

詳細については、「公式の MADlib ロジスティック回帰ドキュメント」を参照してください。

存在する場合は削除
  • [はい] (デフォルト) の場合、同じ名前の既存のテーブルを削除し、新しいテーブルを作成します。
  • [いいえ] の場合、フローを停止し、エラーが発生したことをユーザーに警告します。
従属変数

モデル化または予測するにはブール値である必要があります。回帰オペレーターで使用可能なデータカラムのリストが表示されます。回帰の従属変数となるデータカラムを選択します。

独立変数 回帰分析またはモデルのトレーニングに含める独立変数データカラムを指定します。少なくとも 1 つのカラムを指定する必要があります。 [カラムの選択] をクリックすると、分析に使用できる入力データセットからカラムを選択するためのダイアログが開きます。
カラムのグループ・バイ 入力データをグループ・バイし、グループごとに個別の回帰モデルを構築するためのカラムを少なくとも 1 つ指定します。 [カラムの選択] をクリックすると、入力データセットからグループ・バイに使用できるカラムを選択するためのダイアログが開きます。
最大反復数 反復数が 最大反復数 を超えるか、連続する反復の対数尤度値の差が 収束許容値未満になると、計算は停止します。
オプティマイザー モデルを計算します。モデルは次のアルゴリズムのいずれかになります。
  • 反復的に再重み付けされた最小二乗法
  • 共役勾配。文献では Fletcher-Reeves 法としても知られており、ステップ サイズの計算に Hestenes-Stiefel 規則が使用されます。
  • 増分勾配降下法。文献では増分勾配法または確率的勾配降下法とも呼ばれます。
収束許容値 収束を示す連続する反復における対数尤度値の差。ゼロを指定すると収束基準が無効になり、最大反復数で設定された最大反復回数が完了した後に実行が停止します。
Verbosity (詳細ログ) トレーニング結果のすべての SQL コンソール出力をログに記録するには、[true] (デフォルト) に設定します。

出力

ビジュアル出力
出力は 1 つのタブに表示されます。ロジスティック回帰モデルの品質をさらに出力して評価するには、必要なロジスティック回帰予測オペレーターに加えて、ROC オペレーターと リフト (DB) オペレーターを追加します。

ロジスティック回帰 (MADlib) オペレーターの出力には、モデルの係数 (beta)、オッズ比、標準誤差 (SE)、 Z 値P 値 の統計量が含まれます。

データ出力
なし。これはターミナル オペレーターです。