線形依存データ値への傾向線のフィッティング

線形回帰は、観測されたデータセットに対する傾向線の統計的フィッティングであり、データ値の 1 つ (従属変数) が、他の因果関係のあるデータ値または変数 (独立変数) の値に線形に依存していることがわかります。

  • 従属変数は予測と呼ばれることもあり、独立変数は予測子と呼ばれることもあります。
  • TIBCO Data Science - Team Studio 線形回帰オペレーターは、最も単純で、最も頻繁に使用されるモデリング オペレーターの 1 つです。これらのオペレーターの構成については、線形回帰 (DB) または 線形回帰 (HD) を参照してください。
  • 通常、線形回帰は、より複雑な方法を試す前に、連続的な数値変数と因果変数のセットの間の関係を決定する最初の方法として試行する必要があります。

線形回帰は、従属変数 Y と、X で示される 1 つ以上の説明変数または予測変数の間の関係をモデル化するアプローチです。線形関連がある場合、X の変化は Y にも対応する変化を持ちます。この関係は、次のような線形回帰式の形式で分析および推定されます。

ここで、 はスケーリング係数として機能します。

言い換えれば、線形回帰は、観測されたデータセットに対する傾向線の統計的フィッティングであり、データ値の 1 つが他のデータ値または変数の値に依存していることがわかります。

説明変数 X を 1 つだけ使用した単純線形回帰の例。

単一変数または単純線形回帰は、上に示したように、ラインを XY データセットに最適に適合させることを試みることとして表すことができるため、理解しやすいです。

説明変数 X が 1 つだけ含まれる場合は、単純線形回帰と呼ばれます。単一変数または単純線形回帰は、直線を XY データセットに最適に適合させようとするものとして表すことができます。データセットに複数の独立変数が含まれる場合、それは多変量線形回帰 (MLR) と呼ばれます。独立変数 X に関連して従属変数 Y を予測するための多変量線形回帰方程式の背後にある代数は、一般に次の形式で表すことができます。

コンポーネント 説明 関数
従属変数 独立変数 X の値に基づいて予測された従属変数値 Y
切片

すべての X 値が 0 の場合の Y の値である固定定数値。

これはアルファと呼ばれることもあります。

独立変数 独立変数の値は、従属変数 Y の値に影響を与えることがわかります。線形回帰の場合、Y の値は、X の値の変化に応じて直接または線形に変化します。
係数 スケーリング係数または係数値ベータ。X の値が Y の値にどの程度強く影響するかを定量化します。具体的には、βi の解釈は、他の共変量が固定されている場合の X の 1 単位変化に対する Y の予想変化です。

TIBCO Data Science - Team Studio 線形回帰オペレーターは、XY データセットに対してアルゴリズムを実行して、切片定数 と係数値 の最適値を決定します。

特定のデータセットに最適な線形方程式を推定するには、さまざまな方法があります。最も一般的に使用される方法の 1 つであり、TIBCO Data Science - Team Studio 線形回帰アルゴリズムは、通常の最小 2 乗法 (OLS) アプローチです。このメソッドは、各データ ポイントの垂直偏差の 2 乗和を最小化することによって、観測データに最も適合する直線を計算します (点が適合直線上に正確に存在する場合、その垂直偏差は 0 になります)。偏差は最初に 2 乗され、次に合計されるため、正の値と負の値の間にキャンセルはありません。

次の図は、線形回帰からのデータ ポイントの偏差の 2 乗 d を最小化するという概念を示しています。

線形回帰推定の通常最小 2 乗法の図解 1

最小 2 乗法では、-1 から +1 まで変化する相関係数 R も計算されます。

ここで、(xi、yi) は実際の i 番目のデータ値、 はデータ全体から求められる平均値です。(上の式 R は、「全変動」=「回帰変動」+「残差変動」から求められます。)

相関係数の 2 乗 R2 は、線形方程式が分析されたデータセットにどの程度適合しているかを理解するのに役立ちます。R2 は、回帰によって説明される合計分散の割合を表します。この統計量は、適合が完全であれば 1 に等しく、データが線形説明力をまったく示さない場合には 0 に等しくなります。

たとえば、R2 値が 0.91 の場合、Y の分散の 91% は回帰式で説明されます。

線形回帰の正則化

通常最小 2 乗法アプローチでは、特に観測値の数に比べて予測子の数が多い場合、回帰係数の推定値が大きく変動することがあります。特に利用可能なデータがあまりない場合に、回帰モデルのオーバー フィッティングの問題を回避するには、モデルに正則化パラメーター (または制約) を追加すると、データの外れ値により係数が恣意的に拡張される可能性を減らすことができます。正則化とは、オーバー フィッティングを防ぐために追加情報を導入するプロセスを指し、通常はデータの複雑さに対するペナルティまたは制約の形で行われます。

線形回帰正則化の 3 つの一般的な実装には、Ridge、Lasso、および エラスティック ネット正則化が含まれます。

L2 正則化 (Ridge)

上記の量を最小限に抑えます。係数はゼロに向かって縮小しますが、正確にゼロになることはありません。Ridge は、損失関数の係数の 2 乗和を制約します。L2 正則化により、多数の非ゼロ係数が生成されます。

L1 正則化 (Lasso)

上記の量を最小限に抑えます。係数はゼロに向かって縮小し、変数の選択を容易にするために正確にゼロになる係数もあります。Lasso は、損失関数の係数の絶対値の合計を制約します。L1 正則化では、まばらな推定値が得られます。つまり、高次元空間では、結果として得られる係数の多くはゼロになります。残りの非ゼロ係数は、従属変数Y を決定する際に重要であることが判明した説明変数 (X) を重み付けします。

エラスティック ネット正則化

次の式で与えられる損失関数の Ridge ペナルティ制約と Lasso ペナルティ制約の両方の効果を組み合わせます。

エラスティック パラメーター α = 1 の場合、損失関数は L1 正則化 (Lasso) になり、α = 0 の場合、損失関数は L2 正則化 (Ridge) になります。 α が 0 ~ 1 の場合、損失関数は係数に対して L1 (Lasso) 制約と L2 (Ridge) 制約の両方を組み合わせて実装します。

ラムダが大きくなると、損失関数は切片を除く係数にペナルティを与えます。その結果、線形回帰における非常に大きなラムダでは、係数はすべて 0 になり、切片は応答の平均になります。ロジスティック回帰にも同様の特性がありますが、切片は事前確率として理解されます。

一般に、オーバー フィッティングを避けるために正則化を使用するため、異なるラムダを使用して複数のモデルをトレーニングし、テスト誤差が最小のモデルを選択する必要があります。たとえば、[0, 0.1, 0.2, 0.3, 0.4, ... 1.0] の値を使用してラムダを試し、値がモデルにどのような影響を与えるかを調べます。