線形回帰 (DB)

線形回帰オペレーターを使用して傾向線を観測データセットに近似します。データ値の 1 つ (従属変数) は、他の因果関係のあるデータ値または変数の値 (独立変数) に線形に依存します。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし
ノート: 線形回帰 (DB) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、線形回帰 (HD) オペレーターを使用します。

線形回帰の使用の詳細については、線形依存データ値の傾向線のフィッティングを参照してください。

アルゴリズム

TIBCO Data Science - Team Studio 線形回帰オペレーターは、多変量線形回帰 (MLR) アルゴリズムを入力データセットに適用します。MLR では、モデルのオーバーフィッティングを防ぐために、正則化ペナルティ パラメーターを適用できます。

線形回帰オペレーターは一般回帰を実装し、ステップワイズ機能で変数が多すぎるモデルのオーバーフィッティングを回避できるようにします。通常回帰アルゴリズムでは、回帰分析の最小二乗法 (OLS) が使用されます。これは、観測値と予測値の差の 2 乗和が最小化されるようにモデルが適合していることを意味します。

入力

モデリング用の従属変数と独立変数を含むデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存カラム 回帰に指定された依存カラム。これはモデル化または予測する量です。回帰オペレーターで使用可能なデータカラムのリストが表示されます。回帰の従属変数を考慮するデータカラムを選択します。

依存カラムは数値データ タイプである必要があります。

カラム カラムの選択 をクリックして、分析に使用できる入力データセットからカラムを選択します。

線形回帰の場合、回帰分析またはモデル トレーニング用の独立変数データカラムを選択します。

少なくとも 1 つのカラムまたは交互作用変数を選択する必要があります。

インタラクション パラメーター 使用可能な独立変数を選択できるようにします。これらのデータ パラメーターが従属変数に複合的な影響を与える可能性があります。詳細については、インタラクション パラメーター ダイアログ を参照してください。
ステップワイズ特徴選択
  • [true] は段階的回帰手法を実装します。 [true] を選択すると、可能な ステップワイズ タイプ 回帰メソッドの 1 つが使用され、基準タイプチェック値 が指定されなければなりません。

    ステップワイズ機能 を使用すると、システムは、より大きな元の変数セットと同様に機能する変数のサブセットを見つけることができます。一般に、データ サイエンティストは、より小さいモデルの方が、変数が多すぎるモデルを過剰に適合させる危険性から安全であると考えています。

  • [false] (デフォルト) は、回帰分析の実行時に カラム名相互作用カラム で指定されたすべての独立変数が一度に考慮され、モデルに含められることを指定することになります。
ステップワイズ タイプ どの独立変数がモデルに含めるのが最も予測的であるかを判断するためのさまざまな方法を指定します。

このオプションは、ステップワイズ特徴選択 が選択されている場合にのみ有効になります。

すべてのステップワイズ タイプの手法では、最小有意値は指定されたオペレーターのチェック値パラメーターによって定義され、有意性を決定するアプローチは基準値によって定義されます。

  • FORWARD - (デフォルト) 順回帰分析プロセスの場合、特徴の選択はモデルに変数がない状態から始まり、一度に 1 つの変数を追加します。潜在的な各独立変数のモデルへの寄与は個別に計算されます。 基準タイプ で選択されたアプローチによって定義された最も重要な変数が、最初にモデルに追加されます。このプロセスは、残りの未使用の変数が最小有意水準を満たさなくなるまで繰り返されます。変数が組み込まれると、変数はモデル内に残ります。
    ノート: 大量の変数セットがあり、そのうちの少数のみが必要であると思われる場合は、この方法を使用します。
  • BACKWARD - 後方回帰分析プロセスの場合、特徴の選択はモデルに含まれるすべての変数から始まります。変数の有意性が計算され、基準タイプ で選択されたアプローチによって定義された、最も重要性の低い変数がモデルから削除されます。このプロセスは、最下位変数が最小有意水準を満たすまで繰り返されます。少数の変数セットから開始し、少数の変数のみを削除する必要がある場合は、この方法を使用します。
  • STEPWISE 段階的回帰分析プロセスでは、変数がモデルに追加された後、含まれる変数の有意性が再評価されることを除いて、同じ FORWARD メソッドのステップが実行されます。含まれている変数が有意性基準を満たさなくなった場合、その変数はモデルから削除されます。含める変数の特徴選択は、残りの変数がいずれも選択基準を満たさないか、含める最後の変数も削除された時点で終了します。これは最も強力で、一般的に使用される ステップワイズ タイプです。

基準タイプ 回帰モデルにおける変数の重要性を評価するためのアプローチを指定します。

ステップワイズ特徴選択 が選択されている場合にのみ有効になります。

  • AIC - 一般的な赤池情報量基準 (AIC) は、統計モデルの相対的な適合度を示す特定の尺度です。この基準タイプを選択すると、含まれる特徴または変数の数の関数とモデルの最大尤度関数が適用されます。
  • SBC - シュワルツ ベイジアン情報量基準 (SBC) は AIC 有意関数に似ていますが、選択された特徴量、つまり含まれる変数の数に対してより大きなペナルティ項が含まれています。

    変数を多く取りすぎないことでモデルのオーバー フィッティングを防ぐには、SBC を選択します。

値を確認 前方回帰分析、後方回帰分析、または段階的回帰分析で特徴選択基準として使用する最小有意水準値を指定します。

ステップワイズ特徴選択 が選択されている場合にのみ有効になります。

デフォルト値: 0.05。段階的なアプローチを使用せずに実行している場合は、チェック値 を結果の AIC 値の 10% に設定することを検討してください。

グループ・バイ データのさまざまなグループに基づいてモデルを複数のモデルに分類または細分するためのカラムを指定します。典型的な例は、性別を使用して、男性と女性のデータに基づいて 2 つの異なるモデルを作成することです。モデラーは、データが男性のものであるか女性のものであるかに基づいて、従属変数と独立変数の間の相関関係に有意な差があるかどうかを判断するためにこれを行う場合があります。

グループ・バイカラムは、従属カラムまたは独立変数(モデルのカラム内)として選択できません。

残差プロットを描画 線形回帰結果の Q-Q プロット グラフと残差プロット グラフを出力するオプションを提供します。

[残差プロット描画][true] に設定されている場合の出力グラフの詳細については、「出力」を参照してください。

デフォルト値: false

出力

ビジュアル出力
一般線形回帰の出力

データ サイエンティストは、モデルの予測誤差が構造化されておらず、正規分布していることを期待しているため、残差プロットと Q-Q プロットは、R2、係数、および P 値のサマリー統計量と組み合わせて、重要な線形回帰診断ツールとなります。

残りのビジュアル出力は、サマリーデータ残差プロット、および Q-Q プロットで構成されます。

サマリー
サマリー 出力には、導出された線形回帰モデルの方程式と相関係数の値の詳細が、R2 と標準誤差の統計値とともに表示されます。

導出された線形回帰モデルは、従属変数 (Y) を独立変数 (X1、X2 など) にリンクする数式として示されます。これには、モデル内の各独立変数に関連付けられたスケーリングまたは係数値 (β1、β2 など) が含まれます。

ノート: 得られる一次方程式は、Y= β0 + β1*X1 + β2*X2 + …の形式で表されます。

以下のモデル全体の統計的適合数が表示されます。

  • R2: モデルの多重相関係数、または多重決定係数と呼ばれます。これは、回帰分析によって説明される従属変数 (Y) 分散の合計の割合を表し、0 は Y 分散の 0% の説明を意味し、1 は 100% 正確な適合または予測能力を意味します。
    ノート: 一般に、0.8 より大きい R2 値が良好なモデルとみなされます。ただし、この値は相対的なものであり、状況によっては、たとえば R2 を 0.5 から 0.6 に改善するだけでも有益です。
  • S: モデルごとの標準誤差を表します (SE によって表されることもよくあります)。これは、回帰モデル式が過剰予測または過小予測する平均量の尺度です。

    データ サイエンティストが使用する経験則は、モデル予測の 60% が +/- 1 SE 以内、90% が +/- 2 SE 以内であるということです。

    たとえば、線形回帰モデルが 1 ~ 10 のスケールでワインの品質を予測し、モデル予測ごとの SE が 0.6 である場合、Quality=8 の予測値は、真の値が予測値 8 の2*.6 の範囲内にある可能性が 90% であることを意味します(つまり、実際の品質値は 6.8 から 9.2 の間である可能性が高くなります)。

要約すると、R2 が高く、SE が低いほど、線形回帰モデルの予測はより正確になる可能性があります。

データ
データ の結果は、モデル係数とモデル内の各独立変数の統計的適合数を含むテーブルです。

カラム説明
係数モデル係数 β は、従属変数に対する関連する独立変数の影響の強さを示します。

L1 正則化が適用される場合 (α > 0)、結果の係数値が 0 である場合、通常、この変数はモデルとの関連性がはるかに低いことを意味します (変数の正規化が事前に実行されていると仮定します)。

SE標準誤差 (SE) は、回帰における一連の変数の実際の係数値から推定された係数値の標準偏差を表します。

通常、+ または - 2 の標準誤差を期待することがベスト プラクティスです。つまり、実際の係数値は推定値の 2 SE 以内にある必要があります。したがって、モデラーは、関連する予測係数値よりもはるかに小さい SE 値を探します。

T 統計量 T 統計量は、T= β/SE のように、β 係数の推定値をその標準誤差で割ることによって計算されます。これは、推定された係数にどの程度の誤差があるかを示す尺度を提供します。
  • 小さな T 統計量は、誤差が係数測定値とほぼ同じくらい大きく、したがって疑わしいという事実をモデラーに警告します。
  • T の絶対値が大きいほど、係数の未知の実際の値がゼロになる可能性は低くなります。
P 値P 値は、独立変数の係数値が 0 の場合に、従属変数の値がまだ観測される確率を表します (つまり、p 値が高い場合、関連する変数は相関のある独立変数として関連性があるとは見なされません)。モデル)。
  • 低い P 値は、推定された係数が測定誤差や偶然によるものではないことを示す証拠であり、したがって、有意な結果である可能性が高くなります。したがって、P 値が低いと、モデラーはモデル内の変数の重要性を確信できます。
  • 標準的な慣行では、P 値が 0.05 (5%) を超える係数は信頼されません。
ノート: 0.05 未満の P 値は、係数が関連しているという 95% 以上の確実性があるとして概念化されることがよくあります。

P 値が小さいほど、係数の意味が大きくなり、線形回帰モデルの独立変数の有意性の確実性が高くなります。要約すると、線形回帰オペレーターの データ タブの結果を評価する場合、モデラーは、従属変数での独立変数の効果の強さを示す係数値と、推定された相関測定をどの程度信用しないかを示す関連する P 値に、ほとんど関心があります。

残差プロット

残差プロットには、次の例に示すように、縦軸に線形回帰モデル、横軸に独立変数の残差 (従属変数の観測値と予測値の差) を示すグラフが表示されます。

モデラーは常に残差プロットを確認する必要があります。残差プロットを使用すると、モデルのサマリー統計量では必ずしも検出できないモデルの系統的エラーをすぐに検出できるからです。従属変数の残差は、独立変数の任意の値に対して水平アクセスの上下でランダムに変化することが予想されます。

残差プロット内の点が水平軸の周りにランダムに分散している場合、そのデータには線形回帰モデルが適しています。それ以外の場合は、非線形モデルの方が適切です。

「悪い」残差プロットには、説明できない何らかの構造的な曲がりや異常があります。たとえば、医療データの結果を分析する場合、線形回帰モデルは男性のデータには良好な適合を示しますが、女性のデータには系統誤差がある可能性があります。残差プロットを一目見ると、モデルのこの構造的弱点をすぐに見つけることができます。

要約すると、残差プロットは線形回帰結果を分析するための重要な診断ツールであり、モデラーが全体的なモデルの適合性を分析しながらデータを管理できるようになります。

Q-Q プロット
次の例に示すように、Q-Q (分位数-分位数) プロットは、特定の変数の残差の分布を正規分布 (直線で表される) とグラフで比較します。

点が線に近づくほど、データの分布はより正規になります。これにより、線形回帰モデルがデータに適切に適合しているかどうかをより正確に判断できます。データの特定の分位数またはセクションの線からのあらゆる種類の差異を調査し、理解する必要があります。

Q-Q プロットは興味深い分析ツールですが、必ずしも読みやすく解釈しやすいわけではありません。

データ出力
ビジュアル出力構造と同様の構造を持つファイルが利用可能です。