線形回帰 - MADlib
TIBCO Data Science - Team Studio 線形回帰アルゴリズムの MADlib オープン ソース実装をサポートします。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | いいえ |
| データ処理ツール | MADlib |
アルゴリズム
MADlib 線形回帰オペレーターは、通常最小二乗 (OLS) 線形回帰アルゴリズムを入力データセットに適用します。これは回帰分析の最小二乗法を使用して処理されます。これは、観測値と予測値の差の二乗和が最小になるようにモデルが適合していることを意味します。
一般原則を含む詳細については、「公式 MADlib ドキュメント」を参照してください。
入力
モデリング用の従属変数と独立変数を含むデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| MADlib スキーマ名 | MADlib がデータベースにインストールされるスキーマ。MADlib は、入力データセットと同じデータベースにインストールする必要があります。 「madlib」スキーマがデータベースに存在する場合、このパラメーターはデフォルトで madlib になります。 |
| モデル出力スキーマ名 | 出力が保存されるスキーマの名前。 |
| モデル出力テーブル名 | 回帰モデルを保存するために作成されるテーブルの名前。具体的には、モデル出力テーブルには以下が格納されます。
詳細については、公式 MADlib 線形回帰ドキュメントを参照してください。 |
| 存在する場合は削除 |
|
| 従属変数 | 必要。モデル化または予測する量。
|
| 独立変数 | カラムの選択 をクリックして、分析に使用できる入力データセットからカラムを選択します。
回帰分析またはモデル トレーニング用の独立変数データカラムを選択します。 少なくとも 1 つのカラムを選択する必要があります。 |
| カラムのグループ・バイ | 少なくとも 1 つのカラムを設定して入力データをグループ・バイし、グループごとに個別の回帰モデルを構築できます。 [カラムの選択] をクリックすると、入力データセットからグループ・バイに使用できるカラムを選択するためのダイアログが開きます。 |
| 異質分散性統計 | true (デフォルト) に設定すると、モデル テーブルに 2 つの追加カラムが出力されます。
|
| 残差プロットを描画 | true (デフォルト) に設定すると、線形回帰結果の Q-Q プロット グラフと残差プロット グラフが出力されます。
|
出力
線形回帰オペレーターの データ タブの結果を評価する場合、モデラーは主に係数値に注目します。係数値は、従属変数に対する独立変数の影響の強さを示し、関連する P 値となります。これは、推定された相関測定値をどの程度信頼してはいけないかを示しています。
導出された線形回帰モデルは、従属変数 (Y) を独立変数 (X1、X2 など) にリンクする数式です。これには、モデル内の各独立変数に関連付けられたスケーリング値または係数値 (β1、β2 など) が含まれます。注: 結果の線形方程式は、Y= β0 + β1*X1 + β2*X2 + … の形式で表されます。
以下の全体的なモデルの統計的適合数値:
- R2: R2 は、モデルの多重相関係数、または多重決定係数と呼ばれます。これは、回帰分析によって説明される従属変数 (Y) 分散の合計の割合を表します。0 は Y 分散の 0% の説明を意味し、1 は 100% 正確な適合または予測能力を意味します。ノート: 一般に、R2 値が 0.8 を超えると、良好なモデルとみなされます。ただし、この値は相対的なものであり、状況によっては、たとえば R2 を 0.5 から 0.6 に改善するだけでも有益です。
- S: モデルごとの標準誤差を表します (SE によって表されることもよくあります)。これは、回帰モデル式が過大または過小予測する平均量の尺度です。
- データ サイエンティストが使用する経験則では、モデル予測の 60% が /- 1 SE 以内にあり、90% が /- 2 SE 以内にあります。
たとえば、線形回帰モデルが 1 ~ 10 のスケールでワインの品質を予測し、モデル予測ごとの SE が 0.6 である場合、Quality=8 の予測値は、真の値が予測値8の 2*.6 の範囲内にある可能性が 90% であることを意味します(つまり、実際の品質値は 6.8 から 9.2 の間である可能性が高くなります)。


| カラム | 説明 |
|---|---|
| 係数 | モデル係数 β は、従属変数に対する関連する独立変数の影響の強さを示します。 標準誤差 (SE) は、回帰における変数セットの実際の係数値から推定された係数値の標準偏差を表します。
|
| T 統計量 | T 統計量は、T= β/SE のように、β 係数の推定値をその標準誤差で割ることによって計算されます。これは、推定された係数にどの程度の誤差があるかを示す尺度を提供します。
|
| P 値 | P 値は、独立変数の係数値が 0 の場合に、従属変数の値が依然として観測される確率を表します (つまり、P 値が高い場合、関連する変数は、モデル中の相関する独立変数として関係ないとみなされます)。
|