エラスティック ネット ロジスティック回帰

エラスティック ネット ロジスティック回帰オペレーターは、エラスティック ネット ロジスティック回帰アルゴリズムを入力データセットに適用します。このオペレーターは、エラスティック ネット正則化ロジスティック回帰アルゴリズムのオープンソース実装をサポートします。

情報一覧

ノート: このオペレーターは、TIBCO® Data Virtualization および Apache Spark 3.2 以降でのみ使用できます。

パラメーター

説明
カテゴリー モデル
データ ソース タイプ TIBCO® Data Virtualization
出力を他のオペレーターに送信 はい
データ処理ツール TIBCO® DV, Apache Spark 3.2 以降

アルゴリズム

この エラスティック ネット ロジスティック回帰オペレーターは、S カーブ ロジスティック関数またはロジット関数をデータセットに当てはめて、一連の独立変数の値に基づいて特定のカテゴリイベントの発生確率を計算します。このオペレーターは、Apache Spark 3.2 以降でロジスティック回帰を実装します。

ロジスティック回帰分析は、1 つ以上の予測子変数に基づいてカテゴリ変数の奇妙な結果を予測します。このロジスティック回帰オペレーターは、分類問題用に L-BFGS で最適化されたオープンソースの正規化ロジスティック回帰アルゴリズム Spark MLlib を実装しています。このオペレーターは、交差検証法を使用してロジスティック回帰のハイパー パラメーターを最適化するために使用されます。出力は、最高の検証パフォーマンスを備えた Spark ロジスティック回帰分類モデルです。

入力

入力は単一の表形式のデータセットです。

不正な値または欠落している値
Null 値は許されず、エラーとなります 。

構成

次の表に、エラスティック ネット ロジスティック回帰オペレーターの構成の詳細を示します。

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
従属変数 カテゴリカル データ カラムを依存カラムとして指定します。これは数値である必要があり、ラベルやクラスを値とすることはできません。
利用可能なすべてのカラムを予測子として使用する [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。
連続予測子 数値データ カラムを独立したカラムとして指定します。数値カラムである必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。
ノート: カテゴリー予測子 パラメーターで選択されたカラムは使用できません。
カテゴリー予測子 カテゴリー データ カラムを独立カラムとして指定します。
ノート: 連続予測子 パラメーターで選択されたカラムは使用できません。
数値特徴の正規化 Z 変換を使用して数値特徴を正規化するかどうかを指定します。

デフォルト: [はい]

評価指標 交差検証トレーニング中にモデルのパフォーマンスを評価するためのメトリック。詳細については、多項ロジスティック回帰に関する Spark ドキュメントを参照してください。

次の値は次のとおりです。

  • Auto
  • FMeasure
  • Accuracy

[Auto] を選択した場合、オペレーターはバイナリ分類には Accuracy を使用し、マルチクラス分類には FMeasure を使用します。

ノート: FMeasure のベータ パラメーターの値は 1 に設定されます。

デフォルト: Auto

反復 パラメーターのグリッドごとに最大反復回数を指定します。

デフォルト: 100

許容値 収束許容値を指定します。

デフォルト: 0.01

ペナルティパラメータ (λ) Lasso ロジスティック回帰の λ パラメーター グリッド。詳細については、Apache Spark ドキュメントの「多項ロジスティック回帰」を参照してください。

有効な値は、startendcount を表す V1V2V3 のようなカンマで区切られた一連の値です。ラムダの値は異なる桁にまたがるようにすることが推奨されます。start:end: count の場合、start から end まで n 個のラムダ値からなる指数格子を作成します。

  • start > end の場合、「無効です。start の λ の値が end より大きいです」 value」が返されます。

  • count が整数でない場合は、「無効です。count は整数である必要があります」が返されます。

  • count < 2 の場合、「無効です。count は少なくとも 2 である必要があります」が返されます。

デフォルト: 0.0、0.5、1.0

弾性パラメータ (α) エラスティック ネット パラメーターを制御するパラメータ。
  • α = 0 の場合、ペナルティは L2 ペナルティです。

  • α = 1 の場合、ペナルティは L1 ペナルティです。

詳細については、「線形メソッド - RDD ベースの API」を参照してください。

有効な値は、V1V2V3 のようにカンマで区切られた一連の値で、startendstep を表します。

start > end の場合、「無効です。アルファの start 値が end 値より大きい」が返されます。

step > (end - start) の場合、「無効です。step 値を確認してください」が返されます。

デフォルト: 0.0、0.5、1.0

交差検証フォールドの数 交差検証サンプルの数を指定します。

デフォルト: 3

ランダム シード 擬似ランダム行抽出に使用するシードを指定します。

デフォルト: 1

出力

ビジュアル出力
  • パラメーター サマリー情報: 入力パラメーターとその現在の設定のリストが表示されます。

  • 係数: マルチクラス ターゲットの場合、予測する各値の係数と参照クラスが表示されます。バイナリ分類タスクの場合、予測する値の係数が表示されます (非参照クラス)。

  • トレーニングのサマリー: テストされたハイパー パラメーターの組み合わせごとに行を含む表が表示されます。ハイパー パラメーターごとに、選択したメトリックが表示され、最適なモデルがマークされます。

  • 追加のモデル情報: ロジスティック回帰モデルの従属カラム内のレベルと参照カテゴリの情報を表示します。

  • 目的関数の履歴: トレーニング中の目的関数の履歴を表示します。私たちの実装では、目的関数は対数損失 (負の対数尤度) です。詳細については、Apache Spark ドキュメントの「多項ロジスティック回帰」を参照してください。

後続のオペレーターへの出力
予測器 オペレーターとともに使用できる分類モデル オブジェクト。 予測器 オペレーターで 3 つのカラムが生成されます。
  • PRED_LOR: 分類モデルによって予測された値。
  • CONF_LOR: 予測された分類の確率。
  • INFO_LOR: 各クラスの予測の確率。
混同行列 および 適合度オペレーターとも使用できる分類モデル オブジェクト。

次の例は、エラスティック ネット ロジスティック回帰オペレーターを示しています。

TDV を使用したエラスティック非ロジスティック回帰のワークフロー
データ
golf: このデータセットには次の情報が含まれています。
  • 複数のカラム、ここでは 天気概況、気温、風、湿度、プレー。
  • 複数行 (14 行)。
パラメーター設定
golf データセットのパラメーター設定は次のとおりです。
  • 従属変数: プレー

  • 使用可能なすべてのカラムを予測子として使用する: いいえ

  • 連続予測変数: 温度、湿度

  • カテゴリ予測変数: 風

  • 数値特徴の正規化: はい

  • 評価指標: 自動

  • 反復: 100

  • 許容値: 0.01

  • ペナルティパラメータ (λ): 0.0、0.5、0.2

  • 弾性パラメータ (α): 0.0、0.5、0.1

  • 交差検証フォールドの数: 3
  • ランダム シード: 1
結果
これらの図は、golf データセットのパラメーター設定の結果を示しています。
パラメーターのサマリー情報
Elastic_Net_Logistic_Regression_Parameter のサマリー情報
係数
Elastic_Net_Logistic_Regression_Coefficients
トレーニングのサマリー
Elastic_Net_Logistic_Regression_Training のサマリー
追加のモデル情報
Elastic_Net_Logistic_Regression_追加モデル情報
オブジェクティブ ヒストリー
Elastic_Net_Logistic_Regression_Objective 履歴