線形回帰の使用例 (2)
この使用例では、コンクリートの圧縮強度とその成分、特にセメントの量の変化の間の線形関係の分析を概説します。
コンクリートの圧縮強度解析
データ例では、コンクリートの圧縮強度 (MPa) を、セメント、スラグ、フライアッシュ、水、流動化剤、粗骨材、細骨材の量 (m3 混合物中の kg) および経過時間 (日) と比較して追跡します。
データセットは UC Irvine サイトから取得しています。 https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/。このケースで使用される正確なバージョンは concrete_data.csv (41KB) です。このデータには、1030 件の観測値が含まれています。最初の数行を以下に示します。
ワークフロー
このCSV データを TIBCO Data Science - Team Studio へインポートした後、モデラーは、コンクリートの圧縮強度と混合物に使用されるセメントの量の間の相関関係を分析することから始めることができます。
モデラーは、DB テーブル要素を持つ新しいデータフローを作成し、プレビューオプションを使用して、以下のように TIBCO Data Science - Team Studio 内にロードされたデータを表示することができます。

CementAmt に関連するコンクリート強度の ScatterPlotGraph を見ると、傾向線の周囲にランダムに散在する一般的な線形傾向が明らかになります。セメントの量が増加すると、コンクリートの全体的な強度が一般的に増加します。これは、線形回帰分析が価値があることを示しています。


次に、モデラーは線形回帰オペレーターを DB テーブルに接続し、疑わしい従属変数としてコンクリート強度(MPa) カラムのみを使用し、独立変数としてセメント量カラムのみを使用して初期線形回帰分析を実行できます。
結果
この例の結果は次のことを示しています。
Summary 結果タブには、R2 が 0.27 しか表示されていません。これは、コンクリートの強度に影響を与える混合物中のセメント量以外の要因が存在する可能性があることを示しています。ただし、線形モデルが適切に適合しないことを必ずしも意味するわけではありません。結果の残りの部分を分析する必要があります。
Data 結果タブが表示されます。
この線形回帰分析では、p 値が非常に低く、しきい値 0.05 を大きく下回っています。これは、混合物中のセメントの量がコンクリートの圧縮強度に直線的に影響を与えるという高い信頼性を示しています。
線形関係の強さは、係数値 0.0821 で表されます。係数が大きいほど、コンクリートの強度に対するセメント量の影響が強くなります。これは、セメント柱に基づいてコンクリート強度を予測するための線形回帰直線の急峻さを表します。
Residual Plot (残差プロット) には次のグラフが表示されます。
これは、コンクリート強度適合値の水平線の周囲にあるコンクリート強度残差のランダム パターンを示しており、線形回帰モデルがデータに適切に適合していることを示唆しています。構造上の異常は見られません。
Q-Q プロット には次のグラフが表示されます。
これは、CementAmt とコンクリート強度の間に線形関係があることの良好な適合も示しています。つまり、予測誤差は予想どおりに正規分布しています。
全体として、線形回帰モデルは良いスタートのように見えますが、1 つの独立変数のみを分析する場合はモデルの R2 が低いため、モデラーは次に、次の線形回帰分析に使用可能な変数をすべて追加しようとする可能性があります。回帰に含まれるすべての変数の結果は次のとおりです。
Summary 結果タブには次の情報が表示されます。
R2 (モデルの精度) は 0.62 に向上し、標準誤差は減少しました。
Data 結果タブには次の表が表示されます。
係数値で並べ替えると (カラム ヘッダーの [係数] をクリック)、独立変数、減水剤、セメントがコンクリート強度に対して最も強い線形相関効果を持っていることがわかります。
P 値で並べ替えると (カラム ヘッダーの「P 値」をクリック)、独立変数である年齢、高炉スラグ、およびセメントが、モデル内の重要性において最も高い信頼レベルを持っていることがわかります。
残差プロット には、コンクリート強度フィット値の水平線の周りの残差のランダムな分布が再度表示されます。
Q-Q プロット には、モデルの予測誤差の正規分布が再び表示されます。
混合物の成分量に基づいて線形回帰モデルのコンクリート強度の予測を取得するには、モデラーは次のように線形回帰予測オペレーターを追加し、それを DB テーブル ソースと線形回帰オペレーターの両方にリンクする必要があります。
この結果により、実際に観測されたコンクリート強度値 MPa に加えて、予測コンクリート強度値 P(MPa) を提供する追加のカラムがデータに追加されます。
サマリー
ここでの教訓は、得られた R2 は一般的な経験則の 0.8 を下回っていますが、R2 が 0.62 であることは確かに最初のモデルの適合よりも改善されており、結果全体としては依然としてすべての残差プロットが良好に見える良好な線形回帰モデルを提供しているということです。 。
注: R2 のモデル化されていない部分は、既知のデータに直交する係数であり、見つかった場合はモデルの品質を向上させる可能性があるか、またはそれは単なる非相関ノイズであり、モデルの強化には役立ちません。
モデラーは、モデルによって提供される予測が当面のビジネス目標に対して「十分に優れている」かどうかを判断する必要があります。