ARIMA 時系列 (DB)

ARIMA アルゴリズムを入力時系列データセットに適用し、シミュレーションまたは予測モデリングのニーズに応じてステップ予測を生成します。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール MADlib
ノート: ARIMA 時系列 (DB) オペレーターはデータベース データのみに使用されます。Hadoop データの場合は、ARIMA 時系列 (HD) オペレーターを使用します。

このオペレーターの以前のバージョンは非推奨となり、バージョン 6.1 で削除されました。この新しいオペレーターを使用するには、古い時系列オペレーターをワークフローから削除し、新しい ARIMA 時系列オペレーターに置き換える必要があります。

  • ユーザーは、時系列データを並べ替えるカラムを指定する必要があります。
  • 時系列列は等間隔に配置する必要があります。そうでないと、結果の出力に一貫性がなくなります。
  • ユーザーは時系列データをグループ化するカラムを指定でき、オペレーターはグループでフィルターされた時系列に個別にアルゴリズムを適用します。

このオペレーターの使用例アプリケーションには、将来の小売売上高の予測、金融市場価格の進化のモデル化、気象傾向の予測、IT サーバー負荷の予測などがあります。

アルゴリズム

ARIMA (AutoRegressive, Integrated, Moving Average) クラスの時系列モデルは、ARMA (AutoRegressive, Moving Average) モデルを一般化したものです。

ARIMA モデルを理解するには、まず ARMA モデルを理解する必要があります。

時系列 次数 p,q の ARIMA モデル の次数 (p,q) の ARMA モデルは次のように記述できます。

式-次数 p,q の ARIMA モデル

ここで、p は自己回帰成分の次数、q は移動平均の次数、方式 は誤差 (ホワイトノイズ)の用語。

統合部分を含む ARIMA モデルを理解するには、ラグ オペレーターを使用すると役立ちます。

このラグ、つまりバックステップオペレーター L は、時系列の項を 1 タイム ステップ戻すことによって作用します。

時間を戻します

次に、上記の ARMA(p,q) モデルは次のように書くことができます。

有馬モデル

次に、次数 d の単位根を使用して次数 d の統合部分を導入できます。単位根次数 d

したがって、完全な ARIMA(p,d,q) モデルは次のようになります。

フル ARIMA pdq モデル

入力

時系列データのカラムと時系列データの順序付けに使用するカラムを含む、前述のオペレーターからの表形式のデータセット。

値が不正または欠落しています
行の 時系列並べ替えるカラムグループ・バイ カラム の少なくとも 1 つに Null 値が含まれている場合、その行は削除されます。データセットから。削除された Null 値の数は、出力の [サマリー] セクションにリストされます ([Null データにより削除された行をファイルに書き込む] で選択したオプションに応じて異なります)。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
MADlib スキーマ MADlib がデータベースにインストールされるスキーマ。MADlib は、入力データセットと同じデータベースにインストールする必要があります。 「madlib」スキーマがデータベースに存在する場合、このパラメーターはデフォルトで madlib になります。
タイムスタンプ ARIMA モデルのタイムスタンプ データを含むカラムを選択します。これは数値型または日時型にすることができます。
時系列 時系列として使用するカラムを選択します。これには、データ タイプが double の数値カラムを指定できます。必要に応じて、先行する Variable オペレーターを使用して、他の数値型を double に変換できます。
カラムのグルーピング 入力データセットを個別のグループにグルーピングするために使用されるカラム名のリストを選択し、グループごとに 1 つの ARIMA モデルをトレーニングします。これは SQL の GROUP BY 句に似ています。この値が Null の場合、グルーピングは使用されず、単一の結果モデルが生成されます。
平均値を含める この変数が True の場合、データ系カラムの平均値が ARIMA モデルに追加されます。デフォルト値: true
ステップ アヘッド ARIMA 時系列を実行する先のステップ数を選択します。デフォルト値: 20
自己回帰 AR パラメータ ϕ(B)。デフォルト値: 1
統合度 統合パラメータ。デフォルト値: 1
移動平均 MA パラメータ θ(B)。デフォルト値: 1
最大反復数 学習アルゴリズムを実行する最大反復回数。デフォルト値: 100
オプティマイザー タウ 勾配アルゴリズムの初期ステップ サイズを計算します。デフォルト値: 0.001
オプティマイザ e1 収束のためのアルゴリズム固有のしきい値。デフォルト値: 1e-15
オプティマイザ e2 収束のためのアルゴリズム固有のしきい値。デフォルト値: 1e-15
オプティマイザー e3 収束のためのアルゴリズム固有のしきい値。デフォルト値: 1e-15
オプティマイザー ヘシアン デルタ ヘッセ行列の数値近似を計算するためのデルタ パラメーター。デフォルト値: 1e-6
出力スキーマ 出力テーブルまたはビューのスキーマ。
出力テーブル 結果の出力が生成されるテーブルのパスと名前を指定します。デフォルトでは、これはユーザー ID、ワークフロー ID、およびオペレーターに基づく一意のテーブル名です。
ストレージパラメーター オペレーター出力の詳細なデータベース設定。 [テーブル] 出力でのみ使用できます。

詳細については、「ストレージ パラメーター ダイアログ」を参照してください。

存在する場合は削除 既存のテーブルを上書きするかどうかを指定します。
  • はい - その名前のテーブルが存在する場合、結果を保存する前にテーブルが削除されます。
  • いいえ - その名前のテーブルが存在する場合、結果ウィンドウにエラー メッセージが表示されます。

出力

ビジュアル出力

出力は、ステップ アヘッドモデルサマリー、および 残差の 4 つのタブ付きセクションで構成されます。

  • ステップ アヘッド タブには、指定された入力データセットと構成に対する ARIMA 予測が表にまとめられます。

  • モデル タブには、モデルごとに、AR、MA、切片項の近似パラメーターと、トレーニングされた時系列モデルを説明する他の指標が表にまとめられます。
  • サマリー タブには、選択したパラメータ、Null データ削除に関するレポート、今後の手順と HDFS 内のモデル メトリクス データセットの場所が表示されます。
  • 残差 タブには、モデルのトレーニングに使用される表形式のデータが表示されます。

データ出力
ステップ アヘッド 出力は、表形式のデータセットを処理する任意のオペレーターが使用できます。