ロジスティック回帰 - MADlib
2 項ロジスティック回帰 (MADlib) オペレーターは、2 値従属変数と 1 つ以上の予測子変数の間の関係をモデル化します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | MADlib |
アルゴリズム
- 従属変数は、ブール式で表すことができるブール値です。
- (2 項) ロジスティック回帰は、従属二分変数の条件付き平均が独立変数のベクトルのアフィン関数のロジスティック関数である確率モデルを指します。
- ロジスティック回帰では、観測値の尤度を最大化する係数のベクトルが見つかります。
- 現在、MADlib のロジスティック回帰では、次の 3 つのアルゴリズムのいずれかを使用できます。
- 反復的に再重み付けされた最小二乗法
- 文献では Fletcher-Reeves 法としても知られる共役勾配アプローチ。Hestenes-Stiefel 則を使用してステップ サイズを計算します。
- 増分勾配降下法。文献では増分勾配法または確率的勾配降下法とも呼ばれます。
詳細については、公式 MADlib ドキュメントを参照してください。
入力
モデリング用の従属変数と独立変数を含むデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| MADlib スキーマ名 | MADlib がデータベースにインストールされるスキーマ。MADlib は、入力データセットと同じデータベースにインストールする必要があります。 「madlib」スキーマがデータベースに存在する場合、このパラメーターはデフォルトで madlib になります。 |
| モデル出力スキーマ名 | 出力が保存されるスキーマの名前。 |
| モデル出力テーブル | 回帰モデルを格納するために作成されるテーブルの名前。具体的には、次のようなモデル出力テーブルに格納されます。[ group_col_1 | group_col_2 | ... |] coef | log_likelihood | std_err | z_stats | p_values | odds_ratios | condition_no | num_iterations 詳細については、「公式の MADlib ロジスティック回帰ドキュメント」を参照してください。 |
| 存在する場合は削除 |
|
| 従属変数 |
モデル化または予測するにはブール値である必要があります。回帰オペレーターで使用可能なデータカラムのリストが表示されます。回帰の従属変数となるデータカラムを選択します。 |
| 独立変数 | 回帰分析またはモデルのトレーニングに含める独立変数データカラムを指定します。少なくとも 1 つのカラムを指定する必要があります。 [カラムの選択] をクリックすると、分析に使用できる入力データセットからカラムを選択するためのダイアログが開きます。 |
| カラムのグループ・バイ | 入力データをグループ・バイし、グループごとに個別の回帰モデルを構築するためのカラムを少なくとも 1 つ指定します。 [カラムの選択] をクリックすると、入力データセットからグループ・バイに使用できるカラムを選択するためのダイアログが開きます。 |
| 最大反復数 | 反復数が 最大反復数 を超えるか、連続する反復の対数尤度値の差が 収束許容値未満になると、計算は停止します。 |
| オプティマイザー | モデルを計算します。モデルは次のアルゴリズムのいずれかになります。
|
| 収束許容値 | 収束を示す連続する反復における対数尤度値の差。ゼロを指定すると収束基準が無効になり、最大反復数で設定された最大反復回数が完了した後に実行が停止します。 |
| Verbosity (詳細ログ) | トレーニング結果のすべての SQL コンソール出力をログに記録するには、[true] (デフォルト) に設定します。 |
