線形回帰の使用例 (1)

次の使用例では、サンプルの教育、識字能力、平均寿命、GDP データを使用して国連データセットを分析します。

各国の教育、識字率、平均寿命、GDP の関係に関する国連のデータセット

データセットは http://socserv.socsci.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/index.html から取得しています。

ノート: DB テーブルを右クリックして、データ エクスプローラーのオプションを表示します。詳細については、「探査オペレーター」セクションを参照してください。

データセット

使用される正確なデータセットは、UN.csv (10KB) です。

収集された国連データセットは、TIBCO Data Science - Team Studio プレビュー ウィンドウを使用してすぐに表示できます。最初の数行を以下に示します。

国連データセット

ワークフロー

線形回帰オペレーターを選択して実行する前に、散布図マトリックスや相関分析プロットなどのさまざまなデータ エクスプローラーオペレーター2を使用して、従属変数と独立変数の間に何らかの線形関係があるように見えるかどうかを迅速に評価できます。以下は、一部の国連データの散布図マトリックスの一部を示しています。

マトリックス

散布図

選択した変数のペアごとに、マトリックスに散布図グラフが表示されます。

この例では、education Male 変数と education Female 変数間の強い線形関係など、いくつかの明らかな線形関係が表示されます。

これをさらに調査するには、特定の散布図グラフをクリックして、1 つの変数 (education Female) を Y 軸として表示し、もう 1 つの変数 (education Male) を X 軸として表示します。

男性の学歴が上がると、女性の学歴も上がることに注意してください。このデータを見ると、その国が女子教育を受けている年数は、男子教育に対して 1.3 年の不足から始まりますが、傾きが 1 を超えるにつれて増加しています (つまり、男性の教育が長く行われている国は教育の不足が少ないことを意味します) 女性。)

ただし、これら 2 つの変数は完全に相関しているため疑わしいため、おそらく共線変数ではないでしょうか?共線性は、モデル内の 2 つの説明変数間の線形関係です。 2 つの変数間に正確な線形関係がある場合、2 つの変数は完全に共線的です。したがって、education Male education Female はほぼ同一線上にあるため、モデラーはおそらくそれらのうちの 1 つをモデルから削除する可能性があります。

education Femaleilliteracy Female の間の線形関係を見ると、女性の教育が低下するにつれて、その国の女性の文盲率が増加するという予想される結果が示されています。

散布図

これらの結果は、女性の教育レベルに基づいて国の女性の文盲率を予測するモデルを作成するというアイデアのきっかけとなるかもしれません。

このデータから得られる興味深いモデルの 1 つは、国の幸福度の一般的な指標としての平均余命かもしれません。予測因子は、教育、避妊、乳児死亡率、文盲レベルなどの変数である可能性があります。データ内の男性変数と女性変数は非常に強い共線性があるため、モデラーは冗長性を排除したいと考えるでしょう。 education Female 変数は、教育レベルと女性の解放の両方を示しており、その値に含まれる情報がより多いため、おそらく選択されるでしょう。

冗長な、または共線的な独立変数を除去するステップは、線形回帰モデリングにおいて非常に重要です。

TIBCO Data Science - Team Studio で、モデラーは、従属変数としてlifeFemale (女性の寿命)、独立変数としてeducationFemale (女性の教育)contraception (避妊)infantMortality (乳児死亡率)、およびilliteracyFemale (女性の非識字率) を予測するために、国連データと線形回帰オペレーターを使用してモデルを作成することができます。

データをモデルに接続するワークフロー

結果

Summary 結果タブには、全体的な線形回帰方程式、係数値、変数、およびモデルの R2 値と標準誤差値が表示されます。

注: R2 値 0.8915 は、非常に高い予測能力 (89% の予測可能性) を示します。標準誤差は実際の女性の平均余命から +/- 3.67 年であり、これは妥当な誤差量であると思われます。

サマリー表

Data 結果 タブには、各独立変数の特定の β 相関係数と、関連する SE、T、および P 値の統計が表示されます。このデータを分析するとき、モデラーは、低い P 値 (「信頼性」レベル) と高い β 係数 (「強度」レベル) の両方を持つ独立変数を探します。

結果表

また、P 値が低い独立変数のどれが従属変数に対して最大の強度または相関効果を持っているかを理解するために、β 係数値でデータを並べ替えることもできます。 β が高いことは、独立変数の値の変化が従属変数の値の変化に大きな影響を与えることを示します。この例では、education Female が女性の平均余命に対して最も強い相関効果を持っています。

通常、P 値でデータを並べ替えることは、必要な次のモデリング手順を理解するためにこのデータを分析する最良の方法です。P 値が最も低い変数は、モデラーがモデル内の真の予測子であるという最も高い信頼度を持つ必要がある変数です。P 値が 0.05 を超える変数は、真の予測子ではない可能性が高いため、モデルに含めるのはオプションと見なすことができます (つまり、illiteracy Female が次にモデルから削除される可能性があります)。この例では、幼児死亡率 の P 値は非常に低く、女性の平均余命レベルと逆相関があることは直感的に理にかなっています。

結果表

Residual Plot (残差プロット) を見ると、データに対する線形モデルの全体的な適合を分析する方法が提供されます。

残差プロット

上記の残差プロットの例は、観察されたデータ ポイントのほとんどが 65 ~ 80 歳の間であり、残差のややランダムな分布を示しています。

残差プロットは、縦軸に (実際の Y - 予測された Y)、横軸に予測された Y を示すグラフです。たとえば、x=66 (予想余命年齢は 66 歳) の場合、残差は 1 歳だけ古いです。これは、線形回帰モデルが観測された平均余命率をかなりうまく予測していることを示しています。

Q-Q プロットを見ることは、線形モデルがデータに適切であるかどうかを確認するために実行できる追加のチェックです。

q-q プロット

Q-Q プロットを見ると、残差の分布は直線で表される理論的 (正規) 分布と一致するはずです。点は線 y=x に沿って適合すると予想されます。上記の例は、平均寿命付近および平均寿命を超えるデータではかなり良好な線形近似があり、その範囲外の予測の信頼性が低いことを示しています。ただし、QQ プロットは、X 軸上のサンプル データの分布が Y 軸上の線形モデル予測の予想される正規分布と一致するかどうかを示すため、優れたモデルを作成するためには、高い R2 値ほど重要ではありません。

外れ値がある場合、またはこの例のように線の最初または最後が曲がっている場合、モデラーは外れ値を除外するか、非線形項または交互作用を追加してモデルを改善することを決定する場合があります。

最後のステップとして、線形回帰オペレーターは予測オペレーターにリンクされており、次のように予測された P(life Female) 値も確認できます。

線形回帰予測子

サマリー

予測値は、実際の観測値の有用な範囲内にあります。注: 予測オペレーターは、選択した独立変数に欠損値がない行のみを処理します。したがって、この例では、すべてのデータ行に P_life Female 予測値があるわけではありません。

要約すると、線形回帰モデル全体を分析する場合は、ランダムに分布した残差プロットと Q-Q プロットの強い一致を組み合わせた高い R2 値を探します。これら 3 つが共存することで、線形モデルの適合に高い信頼性が得られます。