線形回帰 (DB)
線形回帰オペレーターを使用して傾向線を観測データセットに近似します。データ値の 1 つ (従属変数) は、他の因果関係のあるデータ値または変数の値 (独立変数) に線形に依存します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | なし |
線形回帰の使用の詳細については、線形依存データ値の傾向線のフィッティングを参照してください。
アルゴリズム
TIBCO Data Science - Team Studio 線形回帰オペレーターは、多変量線形回帰 (MLR) アルゴリズムを入力データセットに適用します。MLR では、モデルのオーバーフィッティングを防ぐために、正則化ペナルティ パラメーターを適用できます。
線形回帰オペレーターは一般回帰を実装し、ステップワイズ機能で変数が多すぎるモデルのオーバーフィッティングを回避できるようにします。通常回帰アルゴリズムでは、回帰分析の最小二乗法 (OLS) が使用されます。これは、観測値と予測値の差の 2 乗和が最小化されるようにモデルが適合していることを意味します。
入力
モデリング用の従属変数と独立変数を含むデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 依存カラム | 回帰に指定された依存カラム。これはモデル化または予測する量です。回帰オペレーターで使用可能なデータカラムのリストが表示されます。回帰の従属変数を考慮するデータカラムを選択します。 依存カラムは数値データ タイプである必要があります。 |
| カラム | カラムの選択 をクリックして、分析に使用できる入力データセットからカラムを選択します。
線形回帰の場合、回帰分析またはモデル トレーニング用の独立変数データカラムを選択します。 少なくとも 1 つのカラムまたは交互作用変数を選択する必要があります。 |
| インタラクション パラメーター | 使用可能な独立変数を選択できるようにします。これらのデータ パラメーターが従属変数に複合的な影響を与える可能性があります。詳細については、インタラクション パラメーター ダイアログ を参照してください。 |
| ステップワイズ特徴選択 |
|
| ステップワイズ タイプ | どの独立変数がモデルに含めるのが最も予測的であるかを判断するためのさまざまな方法を指定します。 このオプションは、ステップワイズ特徴選択 が選択されている場合にのみ有効になります。 すべてのステップワイズ タイプの手法では、最小有意値は指定されたオペレーターのチェック値パラメーターによって定義され、有意性を決定するアプローチは基準値によって定義されます。
|
| 基準タイプ | 回帰モデルにおける変数の重要性を評価するためのアプローチを指定します。 ステップワイズ特徴選択 が選択されている場合にのみ有効になります。
|
| 値を確認 | 前方回帰分析、後方回帰分析、または段階的回帰分析で特徴選択基準として使用する最小有意水準値を指定します。 ステップワイズ特徴選択 が選択されている場合にのみ有効になります。 デフォルト値: 0.05。段階的なアプローチを使用せずに実行している場合は、チェック値 を結果の AIC 値の 10% に設定することを検討してください。 |
| グループ・バイ | データのさまざまなグループに基づいてモデルを複数のモデルに分類または細分するためのカラムを指定します。典型的な例は、性別を使用して、男性と女性のデータに基づいて 2 つの異なるモデルを作成することです。モデラーは、データが男性のものであるか女性のものであるかに基づいて、従属変数と独立変数の間の相関関係に有意な差があるかどうかを判断するためにこれを行う場合があります。 グループ・バイカラムは、従属カラムまたは独立変数(モデルのカラム内)として選択できません。 |
| 残差プロットを描画 | 線形回帰結果の Q-Q プロット グラフと残差プロット グラフを出力するオプションを提供します。 [残差プロット描画] が [true] に設定されている場合の出力グラフの詳細については、「出力」を参照してください。 デフォルト値: false |
出力
データ サイエンティストは、モデルの予測誤差が構造化されておらず、正規分布していることを期待しているため、残差プロットと Q-Q プロットは、R2、係数、および P 値のサマリー統計量と組み合わせて、重要な線形回帰診断ツールとなります。
残りのビジュアル出力は、サマリー、データ、残差プロット、および Q-Q プロットで構成されます。

導出された線形回帰モデルは、従属変数 (Y) を独立変数 (X1、X2 など) にリンクする数式として示されます。これには、モデル内の各独立変数に関連付けられたスケーリングまたは係数値 (β1、β2 など) が含まれます。
以下のモデル全体の統計的適合数が表示されます。
- R2: モデルの多重相関係数、または多重決定係数と呼ばれます。これは、回帰分析によって説明される従属変数 (Y) 分散の合計の割合を表し、0 は Y 分散の 0% の説明を意味し、1 は 100% 正確な適合または予測能力を意味します。ノート: 一般に、0.8 より大きい R2 値が良好なモデルとみなされます。ただし、この値は相対的なものであり、状況によっては、たとえば R2 を 0.5 から 0.6 に改善するだけでも有益です。
- S: モデルごとの標準誤差を表します (SE によって表されることもよくあります)。これは、回帰モデル式が過剰予測または過小予測する平均量の尺度です。
データ サイエンティストが使用する経験則は、モデル予測の 60% が +/- 1 SE 以内、90% が +/- 2 SE 以内であるということです。
たとえば、線形回帰モデルが 1 ~ 10 のスケールでワインの品質を予測し、モデル予測ごとの SE が 0.6 である場合、Quality=8 の予測値は、真の値が予測値 8 の2*.6 の範囲内にある可能性が 90% であることを意味します(つまり、実際の品質値は 6.8 から 9.2 の間である可能性が高くなります)。
要約すると、R2 が高く、SE が低いほど、線形回帰モデルの予測はより正確になる可能性があります。

| カラム | 説明 |
|---|---|
| 係数 | モデル係数 β は、従属変数に対する関連する独立変数の影響の強さを示します。 L1 正則化が適用される場合 (α > 0)、結果の係数値が 0 である場合、通常、この変数はモデルとの関連性がはるかに低いことを意味します (変数の正規化が事前に実行されていると仮定します)。 |
| SE | 標準誤差 (SE) は、回帰における一連の変数の実際の係数値から推定された係数値の標準偏差を表します。 通常、+ または - 2 の標準誤差を期待することがベスト プラクティスです。つまり、実際の係数値は推定値の 2 SE 以内にある必要があります。したがって、モデラーは、関連する予測係数値よりもはるかに小さい SE 値を探します。 |
| T 統計量 | T 統計量は、T= β/SE のように、β 係数の推定値をその標準誤差で割ることによって計算されます。これは、推定された係数にどの程度の誤差があるかを示す尺度を提供します。
|
| P 値 | P 値は、独立変数の係数値が 0 の場合に、従属変数の値がまだ観測される確率を表します (つまり、p 値が高い場合、関連する変数は相関のある独立変数として関連性があるとは見なされません)。モデル)。
ノート: 0.05 未満の P 値は、係数が関連しているという 95% 以上の確実性があるとして概念化されることがよくあります。 P 値が小さいほど、係数の意味が大きくなり、線形回帰モデルの独立変数の有意性の確実性が高くなります。要約すると、線形回帰オペレーターの データ タブの結果を評価する場合、モデラーは、従属変数での独立変数の効果の強さを示す係数値と、推定された相関測定をどの程度信用しないかを示す関連する P 値に、ほとんど関心があります。 |
残差プロットには、次の例に示すように、縦軸に線形回帰モデル、横軸に独立変数の残差 (従属変数の観測値と予測値の差) を示すグラフが表示されます。
モデラーは常に残差プロットを確認する必要があります。残差プロットを使用すると、モデルのサマリー統計量では必ずしも検出できないモデルの系統的エラーをすぐに検出できるからです。従属変数の残差は、独立変数の任意の値に対して水平アクセスの上下でランダムに変化することが予想されます。
残差プロット内の点が水平軸の周りにランダムに分散している場合、そのデータには線形回帰モデルが適しています。それ以外の場合は、非線形モデルの方が適切です。
「悪い」残差プロットには、説明できない何らかの構造的な曲がりや異常があります。たとえば、医療データの結果を分析する場合、線形回帰モデルは男性のデータには良好な適合を示しますが、女性のデータには系統誤差がある可能性があります。残差プロットを一目見ると、モデルのこの構造的弱点をすぐに見つけることができます。
要約すると、残差プロットは線形回帰結果を分析するための重要な診断ツールであり、モデラーが全体的なモデルの適合性を分析しながらデータを管理できるようになります。

点が線に近づくほど、データの分布はより正規になります。これにより、線形回帰モデルがデータに適切に適合しているかどうかをより正確に判断できます。データの特定の分位数またはセクションの線からのあらゆる種類の差異を調査し、理解する必要があります。
Q-Q プロットは興味深い分析ツールですが、必ずしも読みやすく解釈しやすいわけではありません。