ARIMA 時系列 (HD)

ARIMA アルゴリズムを入力時系列データセットに適用し、シミュレーションまたは予測モデリングのニーズに応じてステップ予測を生成します。

情報一覧

パラメーター

説明
カテゴリー モデル
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark
ノート: ARIMA 時系列 (HD) オペレーターは、Hadoop データ専用です。データベース データの場合は、ARIMA 時系列 (DB) オペレーターを使用します。

このオペレーターの以前のバージョンは非推奨となり、バージョン 6.1 で削除されました。この新しいオペレーターを使用するには、古い時系列オペレーターをワークフローから削除し、新しい ARIMA 時系列オペレーターに置き換える必要があります。

  • ユーザーは、時系列データを並べ替えるカラムを指定する必要があります。
  • 時系列列は等間隔に配置する必要があります。そうでないと、結果の出力に一貫性がなくなります。
  • ユーザーは時系列データをグループ・バイするカラムを指定でき、オペレーターはグループでフィルターされた時系列に個別にアルゴリズムを適用します。

このオペレーターの使用例アプリケーションには、将来の小売売上高の予測、金融市場価格の進化のモデル化、気象傾向の予測、IT サーバー負荷の予測などがあります。

アルゴリズム

ARIMA (AutoRegressive, Integrated, Moving Average) クラスの時系列モデルは、ARMA (AutoRegressive, Moving Average) モデルを一般化したものです。

ARIMA モデルを理解するには、まず ARMA モデルを理解する必要があります。

時系列 次数 p,q の ARIMA モデル の次数 (p,q) の ARMA モデルは次のように記述できます。

式-次数 p,q の ARIMA モデル

ここで、p は自己回帰成分の次数、q は移動平均の次数、方式 は誤差 (ホワイトノイズ)の用語。

統合部分を含む ARIMA モデルを理解するには、ラグオペレーターを使用すると役立ちます。

このラグ、つまりバックステップオペレーター L は、時系列の項を 1 タイム ステップ戻すことによって作用します。

時間を戻します

次に、上記の ARMA(p,q) モデルは次のように書くことができます。

有馬モデル

次に、次数 d の単位根を使用して次数 d の統合部分を導入できます。単位根次数 d

したがって、完全な ARIMA(p,d,q) モデルは次のようになります。

フル ARIMA pdq モデル

入力

時系列データのカラムと時系列データの順序付けに使用するカラムを含む、前述のオペレーターからの表形式のデータセット。

値が不正または欠落しています
行の 時系列並べ替えるカラムグループ・バイ カラムの少なくとも 1 つに Null 値が含まれている場合、その行は削除されます。データセットから。削除された Null 値の数は、出力の サマリー セクションにリストされます (Null データにより削除された行をファイルに書き込むで選択したオプションに応じて異なります)。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
並べ替えるカラム 時系列データを並べ替えるカラムを定義します。時系列が順番に正しく処理されるようにするには、順序付けが必要です。

サポートされているデータ タイプ: 整数、ロング、日時

時系列 時系列データを含むカラムを定義します。

サポートされているデータ タイプ: 整数、ロング、浮動小数点、ダブル

グループ・バイ カラム (オプション) 時系列データをグループまたはカテゴリに分割するために使用するカラムを定義します。これは、入力データセットに複数のグループに対して同時にサンプリングされたデータが含まれている場合に便利です。

すべてのデータ タイプがサポートされています。

インターセプトを含める ARIMA モデルを切片で近似する必要があるかどうかを指定します。

デフォルト値: true

自動回帰 (p) AR 順序、つまり、時系列データをどの程度遅らせてそれ自体に回帰させるかを定義します。

Range:[0, Int.Max] ただし、p < 5 に保つことをお勧めします。

統合度 (d) 差分の程度、つまり、タイム ステップの値と前のステップの値の間の差で時系列データが置き換えられる回数を定義します。このパラメーターは、本質的に非定常である時系列データを考慮するために使用されます。

Range:[0, Int.Max] ただし、d < 5 に保つことをお勧めします。

移動平均 (q) MA 次数、つまり、タイム ステップの回帰誤差が前のタイム ステップからの誤差の線形結合となる程度を定義します。

Range:[0, Int.Max] ただし、q < 5 に保つことをお勧めします。

ステップ アヘッド 近似された ARIMA モデルを使用して、予測するタイム ステップ数を定義します。
Null データにより削除された行をファイルに書き込む 独立列または依存カラムの少なくとも 1 つに Null 値がある行は、分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは次の場所に書き込まれます: @default_tempdir/tsds_out/@user_name/@flow_name/@operator_name_uuid/bad_data

  • ファイルに Null 行を書き込まない (デフォルト) - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データは削除されますが、カウントおよび結果 UI には表示されません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

出力は、ステップの前進モデル、および サマリーの 3 つのタブ付きセクションで構成されます。

  • [ステップ アヘッド] タブには、指定された入力データセットと構成に対する ARIMA 予測が表にまとめられます。
  • [モデル] タブには、モデルごとに、AR、MA、切片項の近似パラメーターと、トレーニングされた時系列モデルを説明する他の指標が表にまとめられます。
  • [サマリー] タブには、選択したパラメータ、Null データ削除に関するレポート、今後の手順と HDFS 内のモデル メトリクス データセットの場所が表示されます。

データ出力
Steps Ahead 出力は、表形式のデータセットを処理する任意のオペレーターが使用できます。