エラスティック ネット ロジスティック回帰
エラスティック ネット ロジスティック回帰オペレーターは、エラスティック ネット ロジスティック回帰アルゴリズムを入力データセットに適用します。このオペレーターは、エラスティック ネット正則化ロジスティック回帰アルゴリズムのオープンソース実装をサポートします。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | TIBCO® Data Virtualization |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | TIBCO® DV, Apache Spark 3.2 以降 |
アルゴリズム
この エラスティック ネット ロジスティック回帰オペレーターは、S カーブ ロジスティック関数またはロジット関数をデータセットに当てはめて、一連の独立変数の値に基づいて特定のカテゴリイベントの発生確率を計算します。このオペレーターは、Apache Spark 3.2 以降でロジスティック回帰を実装します。
ロジスティック回帰分析は、1 つ以上の予測子変数に基づいてカテゴリ変数の奇妙な結果を予測します。このロジスティック回帰オペレーターは、分類問題用に L-BFGS で最適化されたオープンソースの正規化ロジスティック回帰アルゴリズム Spark MLlib を実装しています。このオペレーターは、交差検証法を使用してロジスティック回帰のハイパー パラメーターを最適化するために使用されます。出力は、最高の検証パフォーマンスを備えた Spark ロジスティック回帰分類モデルです。
入力
入力は単一の表形式のデータセットです。
構成
次の表に、エラスティック ネット ロジスティック回帰オペレーターの構成の詳細を示します。
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 従属変数 | カテゴリカル データ カラムを依存カラムとして指定します。これは数値である必要があり、ラベルやクラスを値とすることはできません。 |
| 利用可能なすべてのカラムを予測子として使用する | [はい] に設定すると、オペレーターは使用可能なすべてのカラムを予測子として使用し、連続予測子パラメーターとカテゴリカル予測子パラメーターを無視します。 [いいえ] に設定すると、ユーザーは連続予測変数またはカテゴリ予測変数の少なくとも 1 つを選択する必要があります。 |
| 連続予測子 | 数値データ カラムを独立したカラムとして指定します。数値カラムである必要があります。 [カラムの選択] をクリックして、必要なカラムを選択します。 ノート: カテゴリー予測子 パラメーターで選択されたカラムは使用できません。 |
| カテゴリー予測子 | カテゴリー データ カラムを独立カラムとして指定します。 ノート: 連続予測子 パラメーターで選択されたカラムは使用できません。 |
| 数値特徴の正規化 | Z 変換を使用して数値特徴を正規化するかどうかを指定します。 デフォルト: [はい] |
| 評価指標 | 交差検証トレーニング中にモデルのパフォーマンスを評価するためのメトリック。詳細については、多項ロジスティック回帰に関する Spark ドキュメントを参照してください。 次の値は次のとおりです。
[Auto] を選択した場合、オペレーターはバイナリ分類には Accuracy を使用し、マルチクラス分類には FMeasure を使用します。 ノート: FMeasure のベータ パラメーターの値は 1 に設定されます。 デフォルト: Auto |
| 反復 | パラメーターのグリッドごとに最大反復回数を指定します。 デフォルト: 100 |
| 許容値 | 収束許容値を指定します。 デフォルト: 0.01 |
| ペナルティパラメータ (λ) | Lasso ロジスティック回帰の λ パラメーター グリッド。詳細については、Apache Spark ドキュメントの「多項ロジスティック回帰」を参照してください。 有効な値は、start、 end、 count を表す V1、V2、 V3 のようなカンマで区切られた一連の値です。ラムダの値は異なる桁にまたがるようにすることが推奨されます。start:end: count の場合、start から end まで n 個のラムダ値からなる指数格子を作成します。
デフォルト: 0.0、0.5、1.0 |
| 弾性パラメータ (α) | エラスティック ネット パラメーターを制御するパラメータ。
詳細については、「線形メソッド - RDD ベースの API」を参照してください。 有効な値は、V1、V2、V3 のようにカンマで区切られた一連の値で、start、end、step を表します。 start > end の場合、「無効です。アルファの start 値が end 値より大きい」が返されます。 step > (end - start) の場合、「無効です。step 値を確認してください」が返されます。 デフォルト: 0.0、0.5、1.0 |
| 交差検証フォールドの数 | 交差検証サンプルの数を指定します。 デフォルト: 3 |
| ランダム シード | 擬似ランダム行抽出に使用するシードを指定します。 デフォルト: 1 |
出力
-
パラメーター サマリー情報: 入力パラメーターとその現在の設定のリストが表示されます。
-
係数: マルチクラス ターゲットの場合、予測する各値の係数と参照クラスが表示されます。バイナリ分類タスクの場合、予測する値の係数が表示されます (非参照クラス)。
-
トレーニングのサマリー: テストされたハイパー パラメーターの組み合わせごとに行を含む表が表示されます。ハイパー パラメーターごとに、選択したメトリックが表示され、最適なモデルがマークされます。
-
追加のモデル情報: ロジスティック回帰モデルの従属カラム内のレベルと参照カテゴリの情報を表示します。
-
目的関数の履歴: トレーニング中の目的関数の履歴を表示します。私たちの実装では、目的関数は対数損失 (負の対数尤度) です。詳細については、Apache Spark ドキュメントの「多項ロジスティック回帰」を参照してください。
- PRED_LOR: 分類モデルによって予測された値。
- CONF_LOR: 予測された分類の確率。
- INFO_LOR: 各クラスの予測の確率。
例
次の例は、エラスティック ネット ロジスティック回帰オペレーターを示しています。
- 複数のカラム、ここでは 天気概況、気温、風、湿度、プレー。
- 複数行 (14 行)。
-
従属変数: プレー
-
使用可能なすべてのカラムを予測子として使用する: いいえ
-
連続予測変数: 温度、湿度
-
カテゴリ予測変数: 風
-
数値特徴の正規化: はい
-
評価指標: 自動
-
反復: 100
-
許容値: 0.01
-
ペナルティパラメータ (λ): 0.0、0.5、0.2
-
弾性パラメータ (α): 0.0、0.5、0.1
- 交差検証フォールドの数: 3
- ランダム シード: 1