一般化線形回帰モデル

回帰モデルを当てはめて、指数分布族からの何らかの分布に従う従属変数を予測します。

GLM オペレーター アイコン

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

たとえば、年間の州別の自動車事故数に関する国家運輸安全委員会のデータセットがある場合、ポアソン分布 を使用して、次の情報に基づいて将来の事故数を予測できるモデルを適合させることができます。データセットで利用可能な予測子変数。TIBCO Data Science - Team Studio は、一般化線形回帰の Mllib 実装 を利用するため、Spark バージョン 2.0 以降が必要です。

このオペレーターを 予測器 (DB) に接続して、新しいデータの予測を取得できます。

入力

Hadoop 上の表形式の入力。入力には、従属変数を表す数値カラムが少なくとも 1 つと、独立変数を表す任意の数のカラムが含まれている必要があります。オペレーターは、独立変数として選択されたすべての文字列カラムを ワンホット エンコードします。

値が不正または欠落しています
予測子または従属変数のいずれかが欠落している場合、トレーニング例はデータセットから削除されます。

制限事項

文字列依存カラムに対して2 項回帰を実行するには、まずカラムに文字列インデックスを付けて数値依存カラムを生成する必要があります。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
ディストリビューション ファミリ 従属変数の分布。
  • ガウス (デフォルト)
  • 2 項
  • ポアソン
  • ガンマ
リンク機能 従属変数の期待値と線形予測子の間の関係を定義するリンク関数。
  • cloglog
  • identity
  • inverse
  • log (デフォルト)
  • logit
  • probit
  • sqrt
依存カラム 出力として使用する数値カラム。
独立したカラム 入力として機能する 1 つ以上のカラム。

Spark は現在、最大 4096 の機能をサポートしています。

最大反復数 IRLS ソルバーが実行する反復回数。

デフォルト値: 100

収束許容値 このフィールドの整数値は、IRLS プロシージャの収束をチェックするために、基数 10 の定数 (たとえば、4 は 10E-4 と評価される) の (負の) 指数として使用されます。
正則化パラメーター オーバー フィッティングを克服するために制約付きの最適化を実行するための正則化パラメーター。

デフォルト値の 0.0 は、制約のないフィットを示します。

高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
ビジュアル出力には、サマリー適合度、およびパラメーター推定の表が含まれます。
パラメーターの推定値
次の図は、パラメーター推定 テーブルと関連する適合統計を示しています。t は生徒の t 統計を表し、p 確率を表します。

適合度
次の図は、適合度テーブルを示しています。