ARIMA 時系列 (HD)
ARIMA アルゴリズムを入力時系列データセットに適用し、シミュレーションまたは予測モデリングのニーズに応じてステップ予測を生成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | モデル |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
このオペレーターの以前のバージョンは非推奨となり、バージョン 6.1 で削除されました。この新しいオペレーターを使用するには、古い時系列オペレーターをワークフローから削除し、新しい ARIMA 時系列オペレーターに置き換える必要があります。
- ユーザーは、時系列データを並べ替えるカラムを指定する必要があります。
- 時系列列は等間隔に配置する必要があります。そうでないと、結果の出力に一貫性がなくなります。
- ユーザーは時系列データをグループ・バイするカラムを指定でき、オペレーターはグループでフィルターされた時系列に個別にアルゴリズムを適用します。
このオペレーターの使用例アプリケーションには、将来の小売売上高の予測、金融市場価格の進化のモデル化、気象傾向の予測、IT サーバー負荷の予測などがあります。
ARIMA (AutoRegressive, Integrated, Moving Average) クラスの時系列モデルは、ARMA (AutoRegressive, Moving Average) モデルを一般化したものです。
ARIMA モデルを理解するには、まず ARMA モデルを理解する必要があります。
時系列
の次数 (p,q) の ARMA モデルは次のように記述できます。
ここで、p は自己回帰成分の次数、q は移動平均の次数、
は誤差 (ホワイトノイズ)の用語。
統合部分を含む ARIMA モデルを理解するには、ラグオペレーターを使用すると役立ちます。
このラグ、つまりバックステップオペレーター L は、時系列の項を 1 タイム ステップ戻すことによって作用します。
次に、上記の ARMA(p,q) モデルは次のように書くことができます。
次に、次数 d の単位根を使用して次数 d の統合部分を導入できます。
したがって、完全な ARIMA(p,d,q) モデルは次のようになります。
入力
時系列データのカラムと時系列データの順序付けに使用するカラムを含む、前述のオペレーターからの表形式のデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 並べ替えるカラム | 時系列データを並べ替えるカラムを定義します。時系列が順番に正しく処理されるようにするには、順序付けが必要です。 サポートされているデータ タイプ: 整数、ロング、日時 |
| 時系列 | 時系列データを含むカラムを定義します。 サポートされているデータ タイプ: 整数、ロング、浮動小数点、ダブル |
| グループ・バイ カラム | (オプション) 時系列データをグループまたはカテゴリに分割するために使用するカラムを定義します。これは、入力データセットに複数のグループに対して同時にサンプリングされたデータが含まれている場合に便利です。 すべてのデータ タイプがサポートされています。 |
| インターセプトを含める | ARIMA モデルを切片で近似する必要があるかどうかを指定します。 デフォルト値: true |
| 自動回帰 (p) | AR 順序、つまり、時系列データをどの程度遅らせてそれ自体に回帰させるかを定義します。 Range:[0, Int.Max] ただし、p < 5 に保つことをお勧めします。 |
| 統合度 (d) | 差分の程度、つまり、タイム ステップの値と前のステップの値の間の差で時系列データが置き換えられる回数を定義します。このパラメーターは、本質的に非定常である時系列データを考慮するために使用されます。 Range:[0, Int.Max] ただし、d < 5 に保つことをお勧めします。 |
| 移動平均 (q) | MA 次数、つまり、タイム ステップの回帰誤差が前のタイム ステップからの誤差の線形結合となる程度を定義します。 Range:[0, Int.Max] ただし、q < 5 に保つことをお勧めします。 |
| ステップ アヘッド | 近似された ARIMA モデルを使用して、予測するタイム ステップ数を定義します。 |
| Null データにより削除された行をファイルに書き込む | 独立列または依存カラムの少なくとも 1 つに Null 値がある行は、分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。 ファイルは次の場所に書き込まれます: @default_tempdir/tsds_out/@user_name/@flow_name/@operator_name_uuid/bad_data
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
出力は、ステップの前進、モデル、および サマリーの 3 つのタブ付きセクションで構成されます。
- [ステップ アヘッド] タブには、指定された入力データセットと構成に対する ARIMA 予測が表にまとめられます。
- [モデル] タブには、モデルごとに、AR、MA、切片項の近似パラメーターと、トレーニングされた時系列モデルを説明する他の指標が表にまとめられます。
- [サマリー] タブには、選択したパラメータ、Null データ削除に関するレポート、今後の手順と HDFS 内のモデル メトリクス データセットの場所が表示されます。