線形回帰 (HD)

線形回帰オペレーターを使用して傾向線を観測データセットに近似します。データ値の 1 つ (従属変数) は、他の因果関係のあるデータ値または変数の値 (独立変数) に線形に依存します。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール MapReduce、Spark

ノート: 線形回帰 (HD) オペレーターは Hadoop データのみに使用されます。データベース データの場合は、線形回帰 (DB) オペレーターを使用します。

線形回帰の使用の詳細については、線形依存データ値の傾向線のフィッティングを参照してください。

アルゴリズム

TIBCO Data Science - Team Studio 線形回帰オペレーターは、多変量線形回帰 (MLR) アルゴリズムを入力データセットに適用します。MLR では、モデルのオーバーフィットを防ぐために、正則化ペナルティ パラメーターを適用できます。

この線形回帰オペレーターは、通常の線形回帰または エラスティック ネット線形回帰のいずれかを実装します。

一般回帰アルゴリズムでは、回帰分析の最小 2 乗法 (OLS) が使用されます。これは、観測値と予測値の差の 2 乗和が最小化されるようにモデルが適合していることを意味します。

エラスティック ネット回帰アルゴリズムは、線形回帰の一般最小 2 乗法(OLS: Ordinary Least Squares)をサポートするとともに、Lasso (L1) または Ridge (L2) ペナルティ コスト関数をサポートするエラスティック ネット目的関数の実装をサポートします。

この線形回帰オペレーターは、変数が多すぎるモデルのオーバー フィッティングを回避するために、エラスティック ネット正則化機能のオプションを備えた通常の線形回帰を実装します。

入力

モデリング用の従属変数と独立変数を含むデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存カラム 回帰に指定された依存カラム。これはモデル化または予測する量です。回帰オペレーターで使用可能なデータカラムのリストが表示されます。回帰の従属変数を考慮するデータカラムを選択します。

依存カラムは数値データ タイプである必要があります。

最大反復回数 係数が収束しない、または関連性が示されない場合に、アルゴリズムが停止するまでに処理される反復の合計数。

  • 最大反復数は 1 以上の値である必要があります。

デフォルト値: 20

許容値 計算方法で許容される最大誤差値。誤差がこの値より小さい場合、線形回帰モデルのトレーニングは停止します。

デフォルト値: 0.000001

カラム カラムの選択 をクリックして、分析に使用できる入力データセットからカラムを選択します。

線形回帰の場合、回帰分析またはモデル トレーニング用の独立変数データカラムを選択します。

少なくとも 1 つのカラムまたは交互作用変数を選択する必要があります。

インタラクション パラメーター 使用可能な独立変数を選択できるようにします。これらのデータ パラメーターが従属変数に複合的な影響を与える可能性があります。詳細については、インタラクションパラメーターダイアログ を参照してください。
交差検証の数 線形回帰の交差検証ステップを 5 または 10 にするオプションを提供します。

このパラメーターは、[線形回帰のタイプ][エラスティック ネット ペナルティー] に設定されている場合にのみ適用されます。

交差検証は、トレーニング段階で少量のデータを「テスト」データとして使用してモデルをテストする手法です。交差検証は、モデルのオーバー フィッティングを回避するのに役立ち、モデルが独立したデータセットにどのように一般化されるかについての洞察を提供します。 交差検証の数 ステップでは、テストのためにデータを分割する回数を指定します。

ステップ数が多いほど、計算されるモデル誤差はより正確になります (ただし、モデルの処理時間は長くなります)。

デフォルト値: 5

線形回帰のタイプ 通常線形回帰を実行するか、エラスティック ネット ペナルティー を適用した線形回帰を実行するかを決定します。
  • Ordinary は、標準の一般最小 2 乗法 (OLS) アルゴリズムを実装します。
  • エラスティック ネット ペナルティー (デフォルト) は、データのオーバー フィッティングを減らすために適用されるエラスティック ネット係数制約とともに、一般最小 2 乗法 (OLS) アルゴリズムを実装します。最初の実行では、ペナルティ パラメーター (ラムダ) が自動的に選択されます。

    [エラスティック ネット ペナルティー] オプションは、モデル内の独立変数の数がデータ観測値の数に比べて非常に大きい場合に役立ちます。

インターセプトを使用しますか? 線形回帰の切片値 を計算するオプションを提供します。

このパラメーターは、[線形回帰のタイプ][エラスティック ネット ペナルティー] に設定されている場合にのみ適用されます。

一般に、データがすでに正規化されていない限り、これを常に使用する必要があります。

デフォルト値: はい

ペナルティ パラメータ (λ) 線形回帰の最適化パラメーターを表します。これは、モデルのバイアス (損失関数の有意性) と最小化関数の正則化部分 (回帰相関係数の分散) の間のトレードオフの正則化を実装します。

値は 0 以上の任意の数値にすることができ、デフォルト値は 0 (ペナルティなし) です。

ラムダが大きいほど、過剰な変数によるオーバー フィッティングの可能性が低くなります。オーバー フィッティングとは、モデルが良好な「学習」を行うか、トレーニング データに対しては低い誤差に収束しますが、新しい非トレーニング データに対しては良好な結果が得られない状況です。一般に、オーバー フィッティングを避けるために正則化を使用するため、異なるラムダを使用して複数のモデルをトレーニングし、テスト誤差が最小のモデルを選択する必要があります。ラムダ値は 0 より大きくなければなりません。

線形回帰方程式の場合、交差検証プロセスを使用して最適な ラムダ値を選択できます。

交差検証数を選択すると、ペナルティ パラメーターが無効になります。結果の交差検証の数は、ラムダの初期値を示唆しています。

詳細については、線形依存データ値の傾向線のフィッティングを参照してください。

弾性パラメータ (α) L1 (Lasso) と L2 (Ridge) の正則化の混合の度合いを制御する 0 ~ 1 の定数値です。具体的には、次の式で与えられるエラスティック ネット正則化損失関数の α パラメーターです。

弾性パラメーターは、Eidge と Lasso の両方のペナルティ制約の効果を組み合わせたものです。どちらのタイプのペナルティも相関係数の値を縮小します。

このパラメーターは、[線形回帰のタイプ][エラスティック ネット ペナルティー] に設定されている場合にのみ適用されます。

  • 弾性パラメーター α = 1 の場合、純粋な L1 正則化 (Lasso) になります。

    • Lasso 制約は冗長な変数を削除する傾向があるため、疎な係数モデルが生成されます。これは、データの次元が高い場合に役立ちます。

  • 弾性パラメーター α = 0 の場合、純粋な L2 正則化 (Ridge) になります。

    • リッジ制約は、変数に類似の相関係数を持たせる傾向があり、データの変数が少ない場合や次元が低い場合に便利です。

  • 弾性パラメータ α が 0 ~ 1 の範囲にある場合、係数に対して L1 (Lasso) 制約と L2 (Ridge) 制約の両方を組み合わせて実装します。
  • デフォルト値は 1 (L1 または Lasso 正則化) です。 0.5 の値は、Lasso 制約と Ridge 制約の間の妥協点を実装します。

Spark を使用する [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
一般の線形回帰の出力

データ サイエンティストは、モデルの予測誤差が構造化されておらず、正規分布していることを期待しているため、残差プロットと Q-Q プロットは、R2、係数、および P 値のサマリー統計量と組み合わせて、重要な線形回帰診断ツールとなります。

残りのビジュアル出力は、サマリーデータ残差プロット、および Q-Q プロットで構成されます。

エラスティック ネット ペナルティー出力

エラスティック ネット ペナルティー線形回帰が実装されると、追加の出力である交差検証プロット タブが表示されます。

  • サマリー
  • データ
  • 残差プロット (オプション)
  • Q-Q プロット (オプション)
  • 交差検証プロット

サマリー
サマリー 出力には、導出された線形回帰モデルの方程式と相関係数の値の詳細が、R2 と標準誤差の統計値とともに表示されます。

導出された線形回帰モデルは、従属変数 (Y) を独立変数 (X1、X2 など) にリンクする数式として示されます。これには、モデル内の各独立変数に関連付けられたスケーリングまたは係数値 (β1、β2 など) が含まれます。

ノート: 得られる一次方程式は、Y= β0 + β1*X1 + β2*X2 + … の形式で表されます。

以下のモデル全体の統計的適合数が表示されます。

  • R2: モデルの多重相関係数、または多重決定係数と呼ばれます。これは、回帰分析によって説明される従属変数 (Y) 分散の合計の割合を表し、0 は Y 分散の 0% の説明を意味し、1 は 100% 正確な適合または予測能力を意味します。
    ノート: 一般に、0.8 より大きい R2 値が良好なモデルとみなされます。ただし、この値は相対的なものであり、状況によっては、たとえば R2 を 0.5 から 0.6 に改善するだけでも有益です。
  • S: モデルごとの標準誤差を表します (SE によって表されることもよくあります)。これは、回帰モデル式が過剰予測または過小予測する平均量の尺度です。

    データ サイエンティストが使用する経験則は、モデル予測の 60% が +/- 1 SE 以内、90% が +/- 2 SE 以内であるということです。

    たとえば、線形回帰モデルが 1 ~ 10 のスケールでワインの品質を予測し、モデル予測ごとの SE が 0.6 である場合、Quality=8 の予測値は、真の値が予測値 8 の 2*.6の範囲内にある可能性が 90% であることを意味します(つまり、実際の品質値は 6.8 から 9.2 の間である可能性が高くなります)。

要約すると、R2 が高く、SE が低いほど、線形回帰モデルの予測はより正確になる可能性があります。

データ
データ の結果は、モデル係数とモデル内の各独立変数の統計的適合数を含むテーブルです。

カラム説明
係数モデル係数 β は、従属変数に対する関連する独立変数の影響の強さを示します。
ノート: エラスティック ネット を実装する場合、係数の結果のみが表示されます。

L1 正則化が適用される場合 (α > 0)、結果の係数値が 0 である場合、通常、この変数はモデルとの関連性がはるかに低いことを意味します (変数の正規化が事前に実行されていると仮定します)。

南東標準誤差 (SE) は、回帰における一連の変数の実際の係数値から推定された係数値の標準偏差を表します。

通常、+ または - 2 の標準誤差を期待することがベスト プラクティスです。つまり、実際の係数値は推定値の 2 SE 以内にある必要があります。したがって、モデラーは、関連する予測係数値よりもはるかに小さい SE 値を探します。

ノート: エラスティック ネット正則化 が実装されている場合、SE は表示されません。
T 統計量 T 統計量は、T= β/SE のように、β 係数の推定値をその標準誤差で割ることによって計算されます。これは、推定された係数にどの程度の誤差があるかを示す尺度を提供します。
  • 小さな T 統計量は、誤差が係数測定値とほぼ同じくらい大きく、したがって疑わしいという事実をモデラーに警告します。
  • T の絶対値が大きいほど、係数の未知の実際の値がゼロになる可能性は低くなります。
ノート: エラスティック ネット正則化が実装されている場合、T-statistic は表示されません。
P 値P 値は、独立変数の係数値が 0 の場合に、従属変数の値がまだ観測される確率を表します (つまり、p 値が高い場合、関連する変数は相関のある独立変数として関連性があるとは見なされません)。モデル)。
  • 低い P 値は、推定された係数が測定誤差や偶然によるものではないことを示す証拠であり、したがって、有意な結果である可能性が高くなります。したがって、P 値が低いと、モデラーはモデル内の変数の重要性を確信できます。
  • 標準的な慣行では、P 値が 0.05 (5%) を超える係数は信頼されません。ノート:
ノート: 0.05 未満の P 値は、係数が関連しているという 95% 以上の確実性があるとして概念化されることがよくあります。

エラスティック ネット正則化 が実装されている場合、P 値は表示されません。

P 値が小さいほど、係数の意味が大きくなり、線形回帰モデルの独立変数の有意性の確実性が高くなります。要約すると、線形回帰オペレーターの データ タブの結果を評価する場合、モデラーは主に係数値 (従属変数に対する独立変数の影響の強さを示す) と、関連する P 値 (従属変数に対する影響の強さを示す) を気にします。推定された相関測定値はあまり信頼できません。

残差プロット

残差プロットには、次の例に示すように、縦軸に線形回帰モデル、横軸に独立変数の残差 (従属変数の観測値と予測値の差) を示すグラフが表示されます。

モデラーは常に残差プロットを確認する必要があります。残差プロットを使用すると、モデルのサマリー統計量では必ずしも検出できないモデルの系統的エラーをすぐに検出できるからです。従属変数の残差は、独立変数の任意の値に対して水平アクセスの上下でランダムに変化することが予想されます。

残差プロット内の点が水平軸の周りにランダムに分散している場合、そのデータには線形回帰モデルが適しています。それ以外の場合は、非線形モデルの方が適切です。

「悪い」残差プロットには、説明できない何らかの構造的な曲がりや異常があります。

たとえば、医療データの結果を分析する場合、線形回帰モデルは男性のデータには良好な適合を示しますが、女性のデータには系統誤差がある可能性があります。残差プロットを一目見ると、モデルのこの構造的弱点をすぐに見つけることができます。

要約すると、残差プロットは線形回帰結果を分析するための重要な診断ツールであり、モデラーが全体的なモデルの適合性を分析しながらデータを管理できるようになります。

Q-Q プロット
次の例に示すように、Q-Q (分位数-分位数) プロットは、特定の変数の残差の分布を正規分布 (直線で表される) とグラフで比較します。

点が線に近づくほど、データの分布はより正規になります。これにより、線形回帰モデルがデータに適切に適合しているかどうかをより正確に判断できます。データの特定の分位数またはセクションの線からのあらゆる種類の差異を調査し、理解する必要があります。

Q-Q プロットは興味深い分析ツールですが、必ずしも読みやすく解釈しやすいわけではありません。

交差検証プロット (エラスティック ネット正則化のみ)
線形回帰正則化ペナルティ損失関数に使用する、自動的に決定された最適なラムダ値を表示します。

このグラフは、エラスティック ネット線形回帰が実装されている場合にのみ表示されます。

交差検証は主に、統計モデルの予測パフォーマンスを測定する方法です。

  • 最適なラムダは交差検証プロセスによって自動的に選択されます。上の例では、最適なラムダ値は 2.3669 です。
  • ラムダは、正則化の度合いを制御します。0 は正則化なしを意味し、無限大はすべての相関係数がゼロになるためすべての入力変数を無視することを意味します。

次の式に示すように、ラムダ λ が大きくなるほど、損失関数に課せられる制約が増えます。

ノート: このオペレーターで使用できるビジュアライゼーションの詳細については、「ビジュアル結果を精査する」を参照してください。

リファレンス

  1. 定義は http://www.dtreg.com/linreg.htm から引用しています。
  2. 実際には、P 値は T 統計の分布曲線から導出されます。これは、推定された係数値から + または - 2*SE の外側の曲線の下の面積です。
データ出力
ビジュアル出力構造と同様の構造を持つファイルが利用可能です。