線形回帰の使用例 (2)

この使用例では、コンクリートの圧縮強度とその成分、特にセメントの量の変化の間の線形関係の分析を概説します。

線形回帰アイコン

コンクリートの圧縮強度解析

データセット

データ例では、コンクリートの圧縮強度 (MPa) を、セメント、スラグ、フライアッシュ、水、流動化剤、粗骨材、細骨材の量 (m3 混合物中の kg) および経過時間 (日) と比較して追跡します。

データセットは UC Irvine サイトから取得しています。 https://archive.ics.uci.edu/ml/machine-learning-databases/concrete/compressive/。このケースで使用される正確なバージョンは concrete_data.csv (41KB) です。このデータには、1030 件の観測値が含まれています。最初の数行を以下に示します。

具体的なデータCSV

ワークフロー

このCSV データを TIBCO Data Science - Team Studio へインポートした後、モデラーは、コンクリートの圧縮強度と混合物に使用されるセメントの量の間の相関関係を分析することから始めることができます。

モデラーは、DB テーブル要素を持つ新しいデータフローを作成し、プレビューオプションを使用して、以下のように TIBCO Data Science - Team Studio 内にロードされたデータを表示することができます。

具体的なデータテーブル

次のように、すべてのカラムを選択した散布図行列オペレーターを使用して、データの線形依存関係を分析できます。

データを散布図行列にリンクする

CementAmt に関連するコンクリート強度の ScatterPlotGraph を見ると、傾向線の周囲にランダムに散在する一般的な線形傾向が明らかになります。セメントの量が増加すると、コンクリートの全体的な強度が一般的に増加します。これは、線形回帰分析が価値があることを示しています。

線形回帰散布図マトリックス

線形回帰散布図

次に、モデラーは線形回帰オペレーターを DB テーブルに接続し、疑わしい従属変数としてコンクリート強度(MPa) カラムのみを使用し、独立変数としてセメント量カラムのみを使用して初期線形回帰分析を実行できます。

結果

この例の結果は次のことを示しています。

Summary 結果タブには、R2 が 0.27 しか表示されていません。これは、コンクリートの強度に影響を与える混合物中のセメント量以外の要因が存在する可能性があることを示しています。ただし、線形モデルが適切に適合しないことを必ずしも意味するわけではありません。結果の残りの部分を分析する必要があります。

線形回帰のサマリー

Data 結果タブが表示されます。

線形回帰データテーブル

この線形回帰分析では、p 値が非常に低く、しきい値 0.05 を大きく下回っています。これは、混合物中のセメントの量がコンクリートの圧縮強度に直線的に影響を与えるという高い信頼性を示しています。

線形関係の強さは、係数値 0.0821 で表されます。係数が大きいほど、コンクリートの強度に対するセメント量の影響が強くなります。これは、セメント柱に基づいてコンクリート強度を予測するための線形回帰直線の急峻さを表します。

Residual Plot (残差プロット) には次のグラフが表示されます。

線形回帰残差プロット

これは、コンクリート強度適合値の水平線の周囲にあるコンクリート強度残差のランダム パターンを示しており、線形回帰モデルがデータに適切に適合していることを示唆しています。構造上の異常は見られません。

Q-Q プロット には次のグラフが表示されます。

線形回帰 Q-Q プロット

これは、CementAmt とコンクリート強度の間に線形関係があることの良好な適合も示しています。つまり、予測誤差は予想どおりに正規分布しています。

全体として、線形回帰モデルは良いスタートのように見えますが、1 つの独立変数のみを分析する場合はモデルの R2 が低いため、モデラーは次に、次の線形回帰分析に使用可能な変数をすべて追加しようとする可能性があります。回帰に含まれるすべての変数の結果は次のとおりです。

Summary 結果タブには次の情報が表示されます。

線形回帰のサマリー表

R2 (モデルの精度) は 0.62 に向上し、標準誤差は減少しました。

Data 結果タブには次の表が表示されます。

線形回帰データテーブル

係数値で並べ替えると (カラム ヘッダーの [係数] をクリック)、独立変数、減水剤、セメントがコンクリート強度に対して最も強い線形相関効果を持っていることがわかります。

P 値で並べ替えると (カラム ヘッダーの「P 値」をクリック)、独立変数である年齢、高炉スラグ、およびセメントが、モデル内の重要性において最も高い信頼レベルを持っていることがわかります。

残差プロット には、コンクリート強度フィット値の水平線の周りの残差のランダムな分布が再度表示されます。

Q-Q プロット には、モデルの予測誤差の正規分布が再び表示されます。

正規分布を表示する Q-Q プロット。

混合物の成分量に基づいて線形回帰モデルのコンクリート強度の予測を取得するには、モデラーは次のように線形回帰予測オペレーターを追加し、それを DB テーブル ソースと線形回帰オペレーターの両方にリンクする必要があります。

モデリング オペレーターをデータ ソースにリンクする

この結果により、実際に観測されたコンクリート強度値 MPa に加えて、予測コンクリート強度値 P(MPa) を提供する追加のカラムがデータに追加されます。

コンクリートの強度値

サマリー

ここでの教訓は、得られた R2 は一般的な経験則の 0.8 を下回っていますが、R2 が 0.62 であることは確かに最初のモデルの適合よりも改善されており、結果全体としては依然としてすべての残差プロットが良好に見える良好な線形回帰モデルを提供しているということです。 。

注: R2 のモデル化されていない部分は、既知のデータに直交する係数であり、見つかった場合はモデルの品質を向上させる可能性があるか、またはそれは単なる非相関ノイズであり、モデルの強化には役立ちません。

モデラーは、モデルによって提供される予測が当面のビジネス目標に対して「十分に優れている」かどうかを判断する必要があります。