線形回帰 - MADlib

TIBCO Data Science - Team Studio 線形回帰アルゴリズムの MADlib オープン ソース実装をサポートします。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ DB
出力を他のオペレーターに送信 いいえ
データ処理ツール MADlib

アルゴリズム

MADlib 線形回帰オペレーターは、通常最小二乗 (OLS) 線形回帰アルゴリズムを入力データセットに適用します。これは回帰分析の最小二乗法を使用して処理されます。これは、観測値と予測値の差の二乗和が最小になるようにモデルが適合していることを意味します。

一般原則を含む詳細については、「公式 MADlib ドキュメント」を参照してください。

入力

モデリング用の従属変数と独立変数を含むデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
MADlib スキーマ名 MADlib がデータベースにインストールされるスキーマ。MADlib は、入力データセットと同じデータベースにインストールする必要があります。 「madlib」スキーマがデータベースに存在する場合、このパラメーターはデフォルトで madlib になります。
モデル出力スキーマ名 出力が保存されるスキーマの名前。
モデル出力テーブル名 回帰モデルを保存するために作成されるテーブルの名前。具体的には、モデル出力テーブルには以下が格納されます。

[ group_col_1 | group_col_2 | ... |] coef | r2 | std_err | t_stats | p_values | condition_no [| bp_stats | bp_p_value]

詳細については、公式 MADlib 線形回帰ドキュメントを参照してください。

存在する場合は削除
  • [はい] (デフォルト) の場合、同じ名前の既存のテーブルを削除し、新しいテーブルを作成します。
  • [いいえ] の場合、フローを停止し、エラーが発生したことをユーザーに警告します。
従属変数 必要。モデル化または予測する量。

  • 使用可能なカラムのリストが表示されます。回帰の従属変数とみなされるデータカラムを選択します。
  • 依存変数は数値データ タイプである必要があります。

独立変数 カラムの選択 をクリックして、分析に使用できる入力データセットからカラムを選択します。

回帰分析またはモデル トレーニング用の独立変数データカラムを選択します。

少なくとも 1 つのカラムを選択する必要があります。

カラムのグループ・バイ 少なくとも 1 つのカラムを設定して入力データをグループ・バイし、グループごとに個別の回帰モデルを構築できます。

[カラムの選択] をクリックすると、入力データセットからグループ・バイに使用できるカラムを選択するためのダイアログが開きます。

異質分散性統計 true (デフォルト) に設定すると、モデル テーブルに 2 つの追加カラムが出力されます。
  • ブリューシュ・パガン検定統計量 (bp_stats)
  • 対応する p 値 (bp_p_value)
残差プロットを描画 true (デフォルト) に設定すると、線形回帰結果の Q-Q プロット グラフと残差プロット グラフが出力されます。
  • Q-Q プロットは、特定の変数の残差の分布を正規分布 (直線で表される) とグラフで比較します。
  • 残差プロットには、線形回帰モデルの残差を縦軸に、独立変数を横軸に示すグラフが表示されます。

出力

線形回帰オペレーターの データ タブの結果を評価する場合、モデラーは主に係数値に注目します。係数値は、従属変数に対する独立変数の影響の強さを示し、関連する P 値となります。これは、推定された相関測定値をどの程度信頼してはいけないかを示しています。

ビジュアル出力
MADlib 線形回帰オペレーターの結果出力は、サマリー セクションと データ セクションに表示されます。
サマリー

導出された線形回帰モデルは、従属変数 (Y) を独立変数 (X1X2 など) にリンクする数式です。これには、モデル内の各独立変数に関連付けられたスケーリング値または係数値 (β1β2 など) が含まれます。注: 結果の線形方程式は、Y= β0 + β1*X1 + β2*X2 + … の形式で表されます。

以下の全体的なモデルの統計的適合数値:

  • R2: R2 は、モデルの多重相関係数、または多重決定係数と呼ばれます。これは、回帰分析によって説明される従属変数 (Y) 分散の合計の割合を表します。0 は Y 分散の 0% の説明を意味し、1 は 100% 正確な適合または予測能力を意味します。
    ノート: 一般に、R2 値が 0.8 を超えると、良好なモデルとみなされます。ただし、この値は相対的なものであり、状況によっては、たとえば R2 を 0.5 から 0.6 に改善するだけでも有益です。
  • S: モデルごとの標準誤差を表します (SE によって表されることもよくあります)。これは、回帰モデル式が過大または過小予測する平均量の尺度です。
    • データ サイエンティストが使用する経験則では、モデル予測の 60% が /- 1 SE 以内にあり、90% が /- 2 SE 以内にあります。

たとえば、線形回帰モデルが 1 ~ 10 のスケールでワインの品質を予測し、モデル予測ごとの SE が 0.6 である場合、Quality=8 の予測値は、真の値が予測値8の 2*.6 の範囲内にある可能性が 90% であることを意味します(つまり、実際の品質値は 6.8 から 9.2 の間である可能性が高くなります)。

ノート: R2 が高く、SE が低いほど、線形回帰モデルの予測がより正確になる可能性があります。

データ
モデル内の各独立変数のモデル係数と統計的適合数を表示します。

カラム説明
係数モデル係数 β は、従属変数に対する関連する独立変数の影響の強さを示します。

標準誤差 (SE) は、回帰における変数セットの実際の係数値から推定された係数値の標準偏差を表します。

  • 通常、+ または - 2 の標準誤差を予想することがベスト プラクティスです。これは、実際の係数値が推定値の 2 SE 以内であることを意味します。
  • したがって、モデラーは、関連する予測係数値よりもはるかに小さい SE 値を探します。
T 統計量T 統計量は、T= β/SE のように、β 係数の推定値をその標準誤差で割ることによって計算されます。これは、推定された係数にどの程度の誤差があるかを示す尺度を提供します。
  • 小さな T 統計量は、誤差が係数測定値とほぼ同じくらい大きく、したがって疑わしいという事実をモデラーに警告します。
  • T の絶対値が大きいほど、係数の未知の実際の値がゼロになる可能性は低くなります。1
P 値P 値は、独立変数の係数値が 0 の場合に、従属変数の値が依然として観測される確率を表します (つまり、P 値が高い場合、関連する変数は、モデル中の相関する独立変数として関係ないとみなされます)。
  • 低い P 値は、推定された係数が測定誤差や偶然によるものではないことを示す証拠であり、したがって、有意な結果である可能性が高くなります。したがって、P 値が低いと、モデラーはモデル内の変数の重要性を確信できます。
  • 標準的な慣行では、P 値が 0.05 (5%) を超える係数は信頼されません。注: 0.05 未満の P 値は、係数が関連しているという 95% 以上の確実性があるとして概念化されることがよくあります。
    ノート: P 値が小さいほど、線形回帰モデルの係数の意味が大きくなり、独立変数の有意性の確実性が高くなります。
データ出力
なし。これはターミナル オペレーターです。