ロジスティック回帰 (DB)

ロジスティック回帰オペレーターは、S カーブ ロジスティック関数またはロジット関数をデータセットに適合させ、一連の独立変数の値に基づいて特定のカテゴリイベントの発生確率を計算します。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール なし
ノート: ロジスティック回帰 (DB) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、ロジスティック回帰 (HD) オペレーターを使用します。

ロジスティック回帰、使用例、およびこのオペレーターの詳細については、ロジスティック回帰を使用した確率計算を参照してください。

アルゴリズム

ロジスティック回帰のデータベース実装では、2 項ロジスティック回帰アルゴリズム (および変数が多すぎるモデルの過剰適合を回避する StepWise 特徴選択機能) が実装されています。2 項ロジスティック回帰とは、基準が 2 つの可能な結果のみを取ることができるインスタンスを指します (たとえば、「死亡」対「生存」、「成功」対「失敗」、または[はい] 対「いいえ」) ")。

2 項ロジスティック回帰の場合、ロジスティック回帰オペレーターは、因果関係独立変数の値に基づいて 予測値 の可能性の確率モデルを計算します。

2 項ロジスティック回帰アルゴリズムは、2 項ロジット関数をデータセットに当てはめる反復再重み付け最小2 乗法 (IRLS) 法を使用します。

  • TIBCO Data Science - Team Studio ロジスティック回帰オペレーターは、従属変数が 予測する値、または、そうでない (予測する値) であると仮定して、2 項回帰を適用します。
  • 2 項ロジスティック回帰の場合、従属変数には、「はい/いいえ」や「0/1」など、可能な 2 つの異なる離散値のみが含まれている必要があります。
  • 2 項ロジスティック回帰の場合、オペレーターには独立変数の数値が必要です。ただし、カテゴリ独立変数 (目の色など) がソース データセットで指定されている場合、TIBCO Data Science - Team Studio アルゴリズムは、ロジスティック回帰トレーニングを実行する前に、それらを舞台裏で自動的に「レベル」に変換します。

カテゴリ変数の値は、しばしばレベルと呼ばれます。TIBCO Data Science - Team Studio では、各レベルはブール値として扱われます。たとえば、「目の色」変数は、IsBlue?IsGreen?IsBrown? の 3 つのブール レベルで表すことができます。

入力

モデリング用の従属変数と独立変数を含むデータセット。

値が不正または欠落しています
予測は、データを含む行に対してのみ行われます。データが欠落している行はスキップされます。

制限事項

多項回帰は現在、データベース実装ではサポートされていません。

構成

現在、TIBCO Data Science - Team Studio 6.3 では、ロジスティック回帰オペレーターが λ と α のパラメーター空間を検索し、最もパフォーマンスの高いモデルを自動的に選択します。この機能を使用するには、λ または α にカンマ区切りのリスト (例: .1,.2,.3)、または start:end:step (例: 0:1:.1) を指定します。オペレーターは考えられるすべての λ と α の組み合わせを計算し、オペレーターからの出力は最も高い分類パフォーマンスを持つモデルになります。すべてのパラメーターの組み合わせの結果は、結果コンソールの パラメーター最適化 結果タブに表示されます。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存カラム モデル化または予測する量。ロジスティック回帰には依存カラムを指定する必要があります。回帰の従属変数とみなされるデータカラムを選択します。

依存カラムは多くの場合、目の色 = 青、緑、茶色などのカテゴリ型です。

ノート: 2 項ロジスティック回帰の場合、従属カラムは[はい] 、「いいえ」の予測に分類できる必要があります (つまり、2 つを超える異なる値を持つことはできません)。一方、多項ロジスティック回帰の場合は、 従属カラムには、予測する複数のカテゴリ値を含めることができます。
予測する値 2 項ロジスティック回帰の場合にのみ必要です。分析するイベントとなる従属変数カラムに格納されている値を表す 予測する値 を指定する必要があります。

たとえば、予測する値 はアクティブか非アクティブになります。これは、ロジスティック回帰で「成功」イベントと見なされる従属変数の値を指定します。

2 項ロジスティック回帰の場合、予測する肯定的なイベントを示す 従属カラム の値は入力が必要です。たとえば、ローン不履行の場合、予測する値は[はい] になる可能性があります。

ノート: このカラムの値は、データベースに保存されているデータと一致し、データ エクスプローラーでの表示方法と一致する必要があります。 1 と 0 を含むブール依存カラムを定義する場合は、予測する値として 1 または 0 を使用する必要があります。カラムで True と False を使用する場合は、予測する値として「True」または「False」を使用する必要があります。
最大反復回数 係数が収束しない場合、または関連性が示されない場合にアルゴリズムが停止するまでに処理される回帰反復の合計数。このパラメーターは 1 以上の整数値である必要があります。

デフォルト値: 10

許容値 ロジスティック回帰では、許容値を指定する必要があります。これは、IRLS 計算方法の最大許容誤差値を決定するために使用されます。誤差がこの値より小さい場合、ロジスティック回帰モデルのトレーニングは停止します。このパラメーターは 0 以上の 10 進数値である必要があります。

デフォルト値: 0.0001

カラム 回帰分析またはモデルのトレーニングに含める独立変数データカラムを指定します。少なくとも 1 つのカラムまたは 1 つの相互作用変数を指定する必要があります。

カラム ボタンをクリックすると、分析に使用できる入力データセットからカラムを選択するためのダイアログが開きます。詳細については、「カラムの選択ダイアログ」を参照してください。

インタラクション パラメーター 従属変数に複合的な影響を与えると考えられるデータ パラメーターとして、利用可能な独立変数を選択できるようにします。

交互作用パラメーターの作成は、モデラーが 2 つの独立変数の結合相互作用が相加的ではないと考える場合に役立ちます。

相互作用パラメーターを定義するには、相互作用パラメーター ボタンをクリックし、相互作用が疑われるデータカラムを選択します。

機能 A と機能 B がある場合、* を選択すると、A、B、およびインタラクション A*B の両方が独立した機能として使用されます。 : を選択すると、モデルで A*B のみが使用されることを意味します。

ステップワイズ特徴選択 ステップワイズ回帰手法の実装を指定します。このオプションを true に設定すると、以下で定義されている可能なステップワイズ タイプ回帰メソッドの 1 つが使用され、基準タイプチェック値 が次の値である必要があることを指定します。指定。
ノート: ステップワイズを使用すると、システムは、より大きな元の変数セットと同様に機能する変数のサブセットを見つけることができます。一般に、データ サイエンティストは、より小さいモデルの方が、変数が多すぎるモデルを過剰適合させる危険性からより安全であると考えています。

デフォルト値: false。これは、回帰分析の実行時にすべての独立変数が一度に考慮され、モデルに含まれることを意味します。

ステップワイズ タイプ ステップワイズ機能選択[はい] に設定されている場合は必須です。どの独立変数がモデルに含めるのが最も予測的であるかを判断するためのさまざまな方法を指定します。
  • FORWARD (デフォルト): 順回帰分析プロセスの場合、特徴の選択はモデルに変数が存在しない状態から始まり、一度に 1 つの変数を追加します。潜在的な各独立変数のモデルへの寄与は個別に計算されます。 基準タイプ で選択されたアプローチによって定義された最も重要な変数が、最初にモデルに追加されます。このプロセスは、残りの未使用の変数が最小有意水準を満たさなくなるまで繰り返されます。変数は一度組み込まれるとモデル内に残ります。
  • BACKWARD: 大量の変数セットがあり、少数の変数のみが必要であると思われる場合は、この方法を使用します。後方回帰分析プロセスの場合、特徴の選択はモデルに含まれるすべての変数から始まります。変数の有意性が計算され、最も重要性の低い変数 (以下の 基準タイプ で選択したアプローチで定義) がモデルから削除されます。このプロセスは、最下位変数が最小有意水準を満たすまで繰り返されます。少数の変数セットから開始し、少数の変数のみを削除する必要がある場合は、この方法を使用します。
  • STEPWISE: ステップワイズ回帰分析プロセスの場合、変数がモデルに追加された後、含まれる変数の有意性が再評価される点を除いて、同じ FORWARD メソッドのステップが実行されます。含まれている変数が有意性基準を満たさなくなった場合、その変数はモデルから削除されます。含める変数の特徴選択は、残りの変数がいずれも選択基準を満たさないか、含める最後の変数も削除された時点で終了します。これは最も強力で、通常はステップワイズに使用されるタイプです。

これらのステップワイズ タイプ メソッドでは、最小有意値はオペレーターのチェック値パラメーターによって定義され、有意性を決定するアプローチは基準値によって定義されます。

基準タイプ ステップワイズ機能選択[はい] に設定されている場合は必須です。回帰モデルで変数の重要性を評価するために使用するアプローチを指定します。

  • AIC: 一般的な基準である赤池情報量基準は、統計モデルの相対的な適合度を示す特定の尺度です。この AIC 基準タイプを選択すると、含まれる特徴または変数の数の関数と、モデルの最尤関数が適用されます。
  • SBC: シュワルツ ベイジアン情報量基準は、選択された特徴 (つまり、含まれる変数) の数に対してより大きなペナルティ項が含まれる点を除いて、AIC 有意関数と似ています。

ノート: SBC 基準は、あまりにも多くの変数を分析しようとしないことでモデルの過剰適合を防ぐため、推奨されます。
チェック値 ステップワイズ機能選択[はい] に設定されている場合は必須です。 FORWARDBACKWARD、または STEPWISE 回帰分析で特徴選択基準として使用する最小有意水準値を指定します。

デフォルト値: 0.05。あるいは、ステップワイズ アプローチを行わずに、チェック値を結果の AIC 値の 10% に設定します。

グループ・バイ データのさまざまなグループに基づいてモデルを複数のモデルに分類または細分するためのカラムを指定します。典型的な例は、性別を使用して、男性と女性のデータに基づいて 2 つの異なるモデルを作成することです。モデラーは、データが男性のものであるか女性のものであるかに基づいて、従属変数と独立変数の間の相関に有意な差があるかどうかを判断するためにこれを行う場合があります。
ノート: グループ・バイ カラムは、モデル内の従属変数または独立変数としてまだ選択できません。

出力

ノート: 必要なロジスティック回帰予測オペレーターに加えて、モデラーがモデル検証オペレーターを追加して、さらなるモデル精度統計 (適合度オペレーターから) やビジュアル出力 (ROC および LIFT オペレーターから) を取得すると便利です。詳細については、「モデル検証オペレーター オペレーター」セクションを参照してください。
視覚的な結果
サマリー出力には、反復数偏差Null 偏差カイ2 乗値および 説明された分散の割合 統計値。

  • 反復回数: ロジスティック回帰再重み付けプロセスが実行された回数を示します。反復 = 最大反復数 の場合、回帰がまだ収束していないか、適合の失敗があった (つまり、相関パターンが検出されなかった) 可能性があることを示すフラグが立てられます。
  • 逸脱度: ロジスティック回帰モデルの全体的な適合に関する統計として使用されます。ただし、この数値はそれ自体では意味がありません。以下の Null 逸脱度 値と比較するか、以前の回帰実行の独自の値と比較する必要があります。
    • 逸脱度 は、観測値 Y と予測された期待値 Y の比較です。
    • 期待値からの観測値の差または 逸脱度 が大きいほど、モデルの適合度は低くなります。
    • より多くの独立変数がモデルに追加されると、逸脱度は小さくなり、適合度の向上が示されます。
  • Null 逸脱度: 「ダム(まぬけな)」モデルの逸脱度を示します。これは、予測変数を使用しない、yes/no のランダムな推測です。
    • これは、上記のモデル 逸脱度 とのパフォーマンスの比較として使用されます。
    • モデル 逸脱度 (予測子を使用) を Null 逸脱度 (予測子なし) と比較して小さくできるほど、ロジスティック回帰モデルはより優れたものになります。
  • カイ2 乗値: Null 逸脱度逸脱度の差。 カイ2 乗 は、技術的には、ロジスティック回帰の有効性を測定するための「負の 2 対数尤度」または -2LL 逸脱度統計量を表します。 カイ 2 乗 = Null 逸脱度 マイナス 逸脱度
    • 逸脱度Null 逸脱度よりも小さくなることが期待されます。ロジスティック回帰モデルが収束していない、または適合が失敗していることを示すもう 1 つのフラグは、逸脱度 > Null 逸脱度、または負のカイ 2 乗であることです。これは、過適合しているデータのサブセットがあることを示している可能性があります。モデラーは変数を削除して回帰を再実行することを試みることができます。
    • ノート: カイ2 乗は予測値と実際の差の尺度であるため、線形回帰の残差を調べるのと似ています。
  • 説明された分散の割合: カイ2 乗値Null 逸脱度で割ったもの。この比率は、(ダム モデルと比較して) モデルが説明するシステムの変動のパーセンテージを表す、非常に有用な診断統計を提供します。ロジスティック回帰の結果を分析する場合、カイ2 乗/Null 逸脱度値を調べると、線形回帰の R2 値と同様の統計が得られます。経験則として、カイ2 乗/帰無偏差の値が 0.8 (80%) を超える場合、ロジスティック回帰モデルの適合が成功したと見なされます。
データ結果
データ 出力には、モデル内の各独立変数の統計的適合数が表示されます。

  • 属性: 独立変数の名前を表示します。
  • 依存値: 多項ロジスティック回帰の場合にのみ表示されます。 依存値 は、指定された回帰統計データの特定のカテゴリ値を示します。結果には、属性/依存値 ペアごとに 1 行が含まれることに注意してください。
  • ベータ/係数: ベータとも表されます。ベータ は、ロジスティック回帰における各独立変数の出現確率の自然対数の線形モデル相関係数の値です。注: ベータ版は「対数スケール」とも呼ばれます。
  • オッズ比: オッズ比は、ロジスティック回帰の結果に対する変数の影響の強さを示す主な尺度です (つまり、与えられたイベントが発生する「オッズ」) 独立変数の値)。これは、P/(1-P) の確率比を表します。ここで、P はイベントが発生する確率、1-P はイベントが発生しない確率です。実際には、β 係数を取得して exp(B) または eB を求めることによって計算され、結果に対するロジスティック回帰の独立変数の影響の強さを示す有用な尺度となることに注意してください。たとえば、β =.75 の オッズ比 は e .75 = 2.72 .75 =2.12 となり、独立変数の値が 1 単位増加すると成功の確率が 2 倍になることを示します。
    • オッズ比 は常に 0 より大きくなります。
    • オッズ比 の値が正確に 1 の場合は、変数が予測的ではないか、ケースの結果のオッズが比較対象の両方のグループで同等である可能性が高いことを示します。
    • ノート: 注: オッズ比 が 1 より大きいほど、ロジスティック回帰モデルにおける従属変数と独立変数の間の関係が強くなります。
  • SE/標準誤差、または SE: 変数セットの実際の 係数 値から推定された 係数 値の標準偏差を表します。通常は + または - 2 の標準誤差を期待することがベスト プラクティスです。つまり、実際の値は推定された係数値の 2 つの標準誤差以内にある必要があります。したがって、SE 値は、予測された ベータ/係数値よりも大幅に小さくなるはずです。
  • Z 値: 線形回帰で表示される T 値とよく似ています。データセットのサイズが大きくなるにつれて、T 分布曲線と Z 分布曲線は同一になります。 Z 値 は、変数分布の標準正規偏差に関連する値です。 ベータ/係数値 サイズと 係数SE サイズを比較し、次のように計算されます。Z =β/SE。ここで、β は回帰の推定ベータ係数、SE係数の標準誤差値です。 SE 値と Z 値 は、次のより興味深い P 値を導出するために使用される中間計算であるため、必ずしも興味深いものではありません。そして自分たち自身のこと。
  • P 値: Z 値 分布曲線に基づいて計算されます。これは、モデルに関連する関連する独立変数の信頼レベルを表し、ロジスティック回帰モデルにおける変数の重要性を迅速に評価するために使用される主な値です。具体的には、独立変数の 係数 値がゼロの場合 (つまり、P 値 が高い場合、関連する変数の値が依然として観測される確率) です。変数は、モデル内の相関のある独立変数としては関連性があるとは見なされません)。
    • 低い P 値 は、推定された 係数 が測定誤差や偶然によるものではないことを示す証拠であり、したがって、有意な結果である可能性が高くなります。したがって、P 値 が低いと、モデラーはモデル内の変数の重要性を確信できます。
    • 標準的な方法では、P 値が 0.05 (5%) を超える 係数 は信頼されません。注: 0.05 未満の P 値 は、係数 が関連しているという 95% 以上の確実性があるとして概念化されることがよくあります。実際には、この P 値 は Z 統計量の分布曲線から導出されます。これは、推定された 係数値からの + または - 2 標準誤差の外側の曲線下面積です。
    • 注: P 値が小さいほど、係数の意味が大きくなり、ロジスティック回帰モデルの独立変数の有意性の確実性が高くなります。
  • Wald 統計: 相関係数の有意性を評価するために使用されます。次のように、回帰係数の2 乗と係数の標準誤差の2 乗の比です。 Wald 統計 は、データがまばらな場合、偏る傾向があります。これは、線形回帰の t 検定に似ています。
ノート: ロジスティック回帰オペレーターのデータタブを評価する場合、モデラーは主に、従属変数と独立変数の間の相関の強さを示すオッズ比と、推定された係数測定値をどの程度信頼しないかを示す P 値に、通常は関心を持ちます。
係数の結果 (多項ロジスティック回帰)
多項ロジスティック回帰結果の場合、特定の従属変数のカテゴリ値ごとの相関係数 値が表示されます。

P 値の結果 (多項ロジスティック回帰)
多項ロジスティック回帰結果の場合、特定の従属変数のカテゴリ値ごとの P 値 が表示されます。

標準誤差結果 (多項ロジスティック回帰)
多項ロジスティック回帰結果の場合、特定の従属変数のカテゴリ値ごとの SE 値が表示されます。

Wald 統計結果 (多項ロジスティック回帰)
多項ロジスティック回帰結果の場合、特定の従属変数のカテゴリ値ごとの Wald 統計 が表示されます。

Z 値の結果 (多項ロジスティック回帰)
多項ロジスティック回帰結果の場合、特定の従属変数のカテゴリ値ごとの Z 値 が表示されます。

ヒート マップの結果 (多項ロジスティック回帰):

多項ロジスティック回帰結果の場合、ヒート マップ には、分類モデルの実際のカウントと予測カウントに関する情報が表示され、考えられる各クラス値に対するモデルの精度を評価するのに役立ちます。

次の例では、ヒート マップ は、全体的なモデル精度が 95.33% であることを示しています。最も高い予測精度はクラス値「Iris-setosa」(100% 正確な予測) であり、最も低い予測精度はクラス値「Iris-setosa」です。 「Iris-virginica」 (予測精度 88%)。

このオペレーターで使用できる視覚化の詳細については、ビジュアル結果を精査するを参照してください。

データ出力
ビジュアル出力構造と同様の構造を持つファイルが利用可能です。