ロジスティック回帰 (HD)

ロジスティック回帰オペレーターは、S カーブ ロジスティック関数またはロジット関数をデータセットに適合させ、一連の独立変数の値に基づいて特定のカテゴリイベントの発生確率を計算します。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール なし
ノート: ロジスティック回帰 (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、ロジスティック回帰 (DB) オペレーターを使用します。

ロジスティック回帰、使用例、およびこのオペレーターの詳細については、ロジスティック回帰を使用した確率計算を参照してください。

アルゴリズム

ロジスティック回帰の Hadoop 実装は、多項ロジスティック回帰 (MLOR) アルゴリズム (および変数が多すぎるモデルのオーバー フィッティングを避けるための正則化ペナルティ パラメーター) を実装します。多項ロジスティック回帰とは、基準が 3 つ以上の可能な結果 (たとえば、「より良い」、「変化なし」、「より悪い」) を取る可能性がある例を指します。TIBCO Data Science - Team Studio 従属変数に 3 つ以上のカテゴリ値がある場合、多項回帰を実行できます。

多項ロジスティック回帰の場合、ロジスティック回帰オペレーターはカテゴリ従属変数の確率を計算し、各クラス値のイベントが発生する確率 (青い目を持つ可能性など) を示します。このアルゴリズムは、データセットに対する多項ロジット関数の統計的フィッティングを使用して、2 つ以上の離散的な結果を可能にする複数カテゴリの従属変数の発生確率を計算します。多項ロジスティック回帰の場合、従属変数は名目 (またはカテゴリカル、意味のある方法で順序付けできない一連のカテゴリのいずれかに該当することを意味します) である必要があります。

TIBCO Data Science - Team Studio 多項ロジスティック回帰の実装では、モデルが過剰に適合する可能性を防ぐために適用できる正則化ペナルティ パラメーターが可能になります。

ノート: 現在、多項回帰はデータベース実装ではサポートされておらず、Hadoop 実装でのみサポートされています。

入力

モデリング用の従属変数と独立変数を含むデータセット。

値が不正または欠落しています
予測は、データを含む行に対してのみ行われます。データが欠落している行はスキップされます。

構成

現在、TIBCO Data Science - Team Studio 6.3 では、ロジスティック回帰オペレーターが λ と α のパラメーター空間を検索し、最もパフォーマンスの高いモデルを自動的に選択します。この機能を使用するには、λ または α にカンマ区切りのリスト (例: .1,.2,.3) を指定するか、start:end:step (例: 0:1:.1) を指定します。オペレーターは考えられるすべての λ と α の組み合わせを計算し、オペレーターからの出力は最高の分類パフォーマンスを持つモデルになります。すべてのパラメーターの組み合わせの結果は、結果コンソールの パラメーター最適化 結果タブに表示されます。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
依存カラム モデル化または予測する量。ロジスティック回帰に指定された依存カラム。回帰の従属変数とみなされるデータカラムを選択します。従属カラムは、目の色 = 青、緑、茶色などのカテゴリ型であることがよくあります。
ノート: 2 項ロジスティック回帰の場合、従属カラムは[はい] 、「いいえ」の予測に分類できる必要があります (つまり、2 つを超える異なる値を持つことはできません)。一方、多項ロジスティック回帰の場合は、 従属カラムには、予測する複数のカテゴリ値を含めることができます。
最大反復回数 係数が収束しない場合、または関連性が示されない場合にアルゴリズムが停止するまでに処理される回帰反復の合計数を指定します。最大反復回数の可能な範囲は、10 進数以外の値 >= 1 である必要があります。

デフォルト値: 10

許容値 ロジスティック回帰では、許容値を指定する必要があります。これは、IRLS 計算方法の最大許容誤差値を決定するために使用されます。誤差がこの値より小さい場合、ロジスティック回帰モデルのトレーニングは停止します。許容誤差の可能な範囲は 0 以上の 10 進数値である必要があります。

デフォルト値: 0.0001

カラム 回帰分析またはモデルのトレーニングに含める独立変数データカラムを指定します。少なくとも 1 つの カラム変数、または、1 つの インタラクション変数を指定する必要があります。

カラム ボタンをクリックすると、分析に使用できる入力データセットからカラムを選択するためのダイアログが開きます。詳細については、「カラムの選択ダイアログ」を参照してください。

インタラクション パラメーター 従属変数に複合的な影響を与えると考えられるデータ パラメーターとして、利用可能な独立変数を選択できるようにします。

交互作用パラメーター の作成は、2 つの独立変数の結合交互作用が加算的ではないと思われる場合に役立ちます。

インタラクション パラメーターを定義するには、[インタラクション パラメーター] ボタンをクリックし、インタラクションの疑いのあるデータカラムを選択します。

機能 A と機能 B がある場合、「 * 」を選択すると、A、B、およびインタラクション A*B の両方が独立した機能として使用されます。「 : 」を選択すると、モデルで A*B のみが使用されることを意味します。

近似を使用する (高速) Hadoop 管理システムのシングル パスを実装し、精度は劣りますが、より高速なモデリング プロセスを可能にします。
ノート: 近似プロセスは基本的に、メモリ内のモデルを撹拌して結果を平均化するために、データをより小さい量のデータに分割します。

デフォルト値: いいえ

正規化を使用する 以下の ペナルティ パラメーター と同様に、ロジスティック回帰に最適化パラメーターを使用できることを示します。

デフォルト値: いいえ

ペナルティ パラメータ (λ) ロジスティック回帰の最適化パラメーターを表します。これは、モデルのバイアス (損失関数の有意性) と最小化関数の正則化部分 (回帰相関係数の分散) の間のトレードオフの正則化を実装します。値には 0 より大きい任意の数値を指定できます。

ラムダが大きいほど、過剰な変数によるオーバー フィッティングの可能性が低くなります。 (オーバー フィッティングとは、モデルが良好な「学習」を行うか、トレーニング データに対しては低い誤差に収束しますが、新しい非トレーニング データに対しては同様に機能しない状況です。)

線形回帰方程式の場合、交差検証プロセスを使用して最適なラムダ値を選択することができます。ただし、ロジット非線形回帰方程式の場合、データのユーザー エクスペリエンスに基づいて Lambda を定義する必要があります。たとえば、モデルがトレーニング データでは良好に機能するが、予測では良好なパフォーマンスが得られない場合は、Lambda 値を増やすことが必要になる場合があります。

デフォルト値: 0。ペナルティがないことを示します。

特徴選択のみに正則化を使用する 特徴の選択と変数の重要性についてモデルを再トレーニングするには、このオプションと 正則化の使用を有効にします。
  1. 正則化を使用してデータセット上でモデルをトレーニングし、そこからどの特徴を削除するかを決定します。
  2. これらの選択された特徴を使用して新しい通常回帰がトレーニングされ、p 値を持つモデルが取得されます。

出力のサマリーには、削除された特徴がリストされ、p 値が 2 番目の (再トレーニングされた) モデルに含まれます。

デフォルト値: いいえ

弾性パラメータ (α) L1 (Lasso) と L2 (Ridge) の正則化の混合の程度を制御する 0 ~ 1 の定数値。これは、弾性ネット正則化損失関数の α パラメーターです。

弾性パラメーターは、Ridge ペナルティ コンストレイントとLasso ペナルティ コンストレイントの両方の効果を組み合わせます。どちらのタイプのペナルティも相関係数の値を縮小します。

  • 弾性パラメーター (α) = 1 の場合、純粋な L1 正則化 (Lasso) になります。

    • Lasso 制約は冗長な変数を削除する傾向があるため、疎な係数モデルが生成されます。これは、データの次元が高い場合に役立ちます。

  • 弾性パラメータ (α) = 0 の場合、純粋な L2 正則化 (Ridge) になります。

    • Ridge 制約は、変数に類似の相関係数を持たせる傾向があり、データの変数が少ない場合や次元が低い場合に便利です。

  • 弾性パラメーター (α) が 0 ~ 1 の範囲にある場合、係数に対して L1 (Lasso) と L2 (Ridge) の両方の制約を組み合わせて実装します。

デフォルト値:1 (L1 またはLasso 正則化)。値 0.5 は、Lasso 制約と Ridge 制約の間の妥協点を実装します。

弾性パラメーター (α) パラメーターは、[Spark を使用する][はい] に設定されている場合にのみ適用されます。

Spark を使用する [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ノート: 必要なロジスティック回帰予測オペレーターに加えて、モデラーがモデル検証オペレーターを追加して、さらなるモデル精度統計 (適合度オペレーターから) やビジュアル出力 (ROC および LIFT オペレーターから) を取得すると便利です。詳細については、「モデル検証オペレーター オペレーター」セクションを参照してください。
視覚的な結果
サマリー タブには、反復回数、逸脱度、Null 逸脱度、カイ 2 乗値、および説明された分散の割合の統計値が表示されます。

  • 反復回数: ロジスティック回帰再重み付けプロセスが実行された回数を示します。 反復 = 最大反復数の場合、回帰がまだ収束していないか、適合失敗があった可能性がある (つまり、相関パターンが検出されなかった) というフラグが立てられます。
  • 逸脱度: ロジスティック回帰モデルの全体的な適合に関する統計として使用されます。ただし、この数値はそれ自体では意味がありません。以下の Null 逸脱度 の値と比較するか、以前の回帰実行の独自の値と比較する必要があります。
    • 逸脱度 は、観測値 Y と予測された期待値 Y の比較です。
    • 期待値からの観測値の差または 逸脱度 が大きいほど、モデルの適合度は低くなります。
    • より多くの独立変数がモデルに追加されると、逸脱度は小さくなり、適合度の向上が示されます。
  • Null 逸脱度: 「ダム(まぬけな)」モデルの逸脱度を示します。これは、予測変数を使用しない、yes/no のランダムな推測です。
    • これは、上記のモデル 逸脱度 とのパフォーマンスの比較として使用されます。
    • モデル 逸脱度 (予測子を使用) を Null 逸脱度 (予測子なし) と比較して小さくできるほど、ロジスティック回帰モデルはより優れたものになります。
  • カイ 2 乗値: Null 逸脱度逸脱度の差。 カイ 2 乗 は、技術的には、ロジスティック回帰の有効性を測定するための「負の 2 対数尤度」または -2LL 逸脱度統計量を表します。 カイ 2 乗 = Null 逸脱度 マイナス 逸脱度
    • 逸脱度Null 逸脱度よりも小さくなることが期待されます。ロジスティック回帰モデルが収束していない、または適合が失敗していることを示すもう 1 つのフラグは、逸脱度 > Null 逸脱度、または負のカイ 2 乗であることです。これは、過適合しているデータのサブセットがあることを示している可能性があります。モデラーは変数を削除して回帰を再実行することを試みることができます。
    • ノート: カイ 2 乗は予測値と実際の差の尺度であるため、線形回帰の残差を調べるのと似ています。
  • 説明された分散の割合: カイ 2 乗値Null 逸脱度で割ったもの。この比率は、(ダム モデルと比較して) モデルが説明するシステムの変動のパーセンテージを表す、非常に有用な診断統計を提供します。ロジスティック回帰の結果を分析する場合、カイ 2 乗/Null 逸脱度値を調べると、線形回帰の R2 値と同様の統計が得られます。経験則として、カイ 2 乗 / 帰無偏差の値が 0.8 (80%) を超える場合、ロジスティック回帰モデルの適合が成功したと見なされます。
データ結果
データ タブには、モデル内の各独立変数の統計的適合数が表示されます。

  • 属性: 独立変数の名前を表示します。
  • 依存値: 多項ロジスティック回帰の場合にのみ表示されます。 依存値 は、指定された回帰統計データの特定のカテゴリ値を示します。結果には、属性/従属値 のペアごとに 1 行が含まれることに注意してください。
  • ベータ/係数: ベータとも表されます。ベータ は、ロジスティック回帰における各独立変数の出現確率の自然対数の線形モデル相関係数の値です。注: ベータ は「対数スケール」とも呼ばれます。
  • オッズ比: オッズ比は、ロジスティック回帰の結果に対する変数の影響の強さを示す主な尺度です(つまり、与えられた独立変数の値でイベントが発生する「オッズ」)。これは、P/(1-P) の確率比を表します。ここで、P はイベントが発生する確率、1-P はイベントが発生しない確率です。実際には、β 係数を取得して exp(B) または eB を求めることによって計算され、結果に対するロジスティック回帰の独立変数の影響の強さを示す有用な尺度となることに注意してください。たとえば、β =.75 の オッズ比 は e .75 = 2.72 .75 =2.12 となり、独立変数の値が 1 単位増加すると成功の確率が 2 倍になることを示します。
    • オッズ比 は常に 0 より大きくなります。
    • オッズ比 の値が正確に 1 の場合は、変数が予測的ではないか、ケースの結果のオッズが比較対象の両方のグループで同等である可能性が高いことを示します。
    • ノート: 注: オッズ比 が 1 より大きいほど、ロジスティック回帰モデルにおける従属変数と独立変数の間の関係が強くなります。
  • SE/標準誤差、または SE: 変数セットの実際の 係数 値から推定された 係数 値の標準偏差を表します。通常は + または - 2 の標準誤差を期待することがベスト プラクティスです。つまり、実際の値は推定された係数値の 2 つの標準誤差以内にある必要があります。したがって、SE 値は、予測された ベータ/係数値よりも大幅に小さくなるはずです。
  • Z 値: 線形回帰で表示される T 値とよく似ています。データセットのサイズが大きくなるにつれて、T 分布曲線と Z 分布曲線は同一になります。 Z 値 は、変数分布の標準正規偏差に関連する値です。 ベータ/係数値 サイズと 係数値SE サイズを比較し、次のように計算されます。Z =β/SE。ここで、β は回帰の推定ベータ係数、SE係数の標準誤差値です。 SE 値と Z 値 は、次のより興味深い P 値を導出するために使用される中間計算であるため、必ずしも興味深いものではありません。そして自分たち自身のこと。
  • P 値: Z 値 分布曲線に基づいて計算されます。これは、モデルに関連する関連する独立変数の信頼レベルを表し、ロジスティック回帰モデルにおける変数の重要性を迅速に評価するために使用される主な値です。具体的には、独立変数の 係数 値がゼロの場合 (つまり、P 値 が高い場合、関連する変数の値が依然として観測される確率) です。変数は、モデル内の相関のある独立変数としては関連性があるとは見なされません)。
    • 低い P 値 は、推定された 係数 が測定誤差や偶然によるものではないことを示す証拠であり、したがって、有意な結果である可能性が高くなります。したがって、P 値 が低いと、モデラーはモデル内の変数の重要性を確信できます。
    • 標準的な方法では、P 値が 0.05 (5%) を超える 係数 は信頼されません。注: 0.05 未満の P 値 は、係数 が関連しているという 95% 以上の確実性があるとして概念化されることがよくあります。実際には、この P 値 は Z 統計量の分布曲線から導出されます。これは、推定された 係数値からの + または - 2 標準誤差の外側の曲線下面積です。
    • 注: P 値が小さいほど、係数の意味が大きくなり、ロジスティック回帰モデルの独立変数の有意性の確実性が高くなります。
  • Wald 統計: 相関係数の有意性を評価するために使用されます。次のように、回帰係数の 2 乗と係数の標準誤差の 2 乗の比です。 Wald 統計 は、データがまばらな場合、偏る傾向があります。これは、線形回帰の t 検定に似ています。
ノート: ロジスティック回帰オペレーターのデータ タブを評価する場合、モデラーは主に、従属変数と独立変数の間の相関の強さを示すオッズ比と、推定された係数測定値をどの程度信頼しないかを示す P 値に、通常は関心を持ちます。
係数の結果 (多項ロジスティック回帰)
多項ロジスティック回帰結果の場合、特定の従属変数のカテゴリ値ごとの相関係数 値が表示されます。

P 値の結果 (多項ロジスティック回帰)
多項ロジスティック回帰結果の場合、特定の従属変数のカテゴリ値ごとの P 値 が表示されます。

標準誤差結果 (多項ロジスティック回帰)
多項ロジスティック回帰結果の場合、特定の従属変数のカテゴリ値ごとの 標準誤差 値が表示されます。

Wald 統計結果 (多項ロジスティック回帰)
多項ロジスティック回帰結果の場合、特定の従属変数のカテゴリ値ごとの Wald 統計 が表示されます。

Z 値の結果 (多項ロジスティック回帰)
多項ロジスティック回帰結果の場合、特定の従属変数のカテゴリ値ごとの Z 値 が表示されます。

ヒート マップの結果 (多項ロジスティック回帰):

多項ロジスティック回帰結果の場合、ヒート マップ には、分類モデルの実際のカウントと予測カウントに関する情報が表示され、考えられる各クラス値に対するモデルの精度を評価するのに役立ちます。

この例では、ヒート マップ は全体的なモデル精度が 95.33% であることを示しています。最も高い予測精度はクラス値「Iris-setosa」(100% 正確な予測) であり、最も低い予測精度はクラス値「Iris-setosa」です。 「Iris-virginica」 (予測精度 88%)。

重要: このオペレーターで使用できる視覚化の詳細については、ビジュアル結果を精査するを参照してください。
データ出力
ビジュアル出力構造と同様の構造を持つファイルが利用可能です。