時系列 SAX エンコーダ

時系列 ID と元の時系列の離散化された文字列表現を含む 1 つ以上のカラムを含む新しいデータセットを生成します。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark SQL

オペレーターは、入力テーブルの行内の各時系列を取得し、ユーザーが要求した各入力時系列の圧縮表現を作成します。ユーザーが要求した場合、Null 値は削除され、時系列は Z 正規化されます。

次に、時系列はユーザーが要求したビン数 (SAX 文字列長 パラメーターで指定) に分割されます。時系列の長さが要求されたビンの数で正確に割り切れない場合、オペレーターは部分寄与アプローチを使用して、各ビンに含めるデータ ポイントの数を決定します。

たとえば、時系列に 10 個のデータ ポイントがあり、ユーザーが 3 のビン サイズを要求した場合、ビン分割は次のようになります。

  • 最初のビンは最初の 3 ポイントと 4 番目のポイントの 1/3 を獲得します。
  • 2 番目のビンは、4 番目のポイントの 3 分の 2、5 番目と 6 番目のポイント、および 7 番目のポイントの 3 分の 2 を獲得します。
  • 3 番目のビンは 7 番目のポイントの 3 分の 1 に、最後の 3 ポイントを加えたものを獲得します。

時系列がビン化されると、ユーザーの選択 (集計方法 パラメーターで指定) に従って各ビン内の値が集計されます。ユーザーが集計出力を要求した場合、値が返されます。それ以外の場合、集計値は標準正規分布と比較され、分布の対応する部分が出力として返されます。

ノート: 標準正規分布はユーザーの要求 (SAX アルファベット サイズ パラメーターで指定) に従ってビン分けされ、各ビンには下端から上端までアルファベットが割り当てられます。

入力

単一の表形式のデータセット。

値が不正または欠落しています
系列内の Null 値は削除され、すべてが Null 値である時系列は Null 文字カラムを返すか、アルファベットまたは集計出力が選択されている場合は削除されます。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
時系列カラムの範囲 時系列を含む列番号範囲を 1 行に 1 つの系列で指定します。
集計方法 SAX エンコードで使用する集計方法を指定します - 平均 (デフォルト)、最大中央値、または 最小
SAX 文字列の長さ 時系列を離散化するビンの数を指定します。
SAX アルファベット サイズ Z 正規分布を分割する間隔の数を指定します。
時系列 ID カラム 出力をわかりやすくするための、時系列の ID を含むオプションのカラム名。名前が指定されていない場合は、TIBCO Data Science - Team Studio 行 ID を含む ID カラムを出力に生成します。
保持するカラム [カラムの選択] ボタンをクリックして、入力データセットから出力に追加するカラムを選択します。
出力形式 出力形式を定義します。
  • SAX アグリゲーション - 時系列がビン化され、ビン内で集計され、それぞれの集計値が返されます。
  • SAX アルファベット - 文字列出力と同じですが、個々のアルファベットが連結されずに返される点が異なります。
  • SAX 文字列 (デフォルト) - 時系列は正規化され、ビン化され、ビン内で集計され、ビン値はアルファベットに変換されて文字列から連結されます。
Z 正規化入力 入力時系列を標準化するかどうかを指定します。 [はい] (デフォルト) または [いいえ]
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
出力データセットの表形式のプレビュー。出力 タブと サマリー タブが含まれます。
出力
SAX エンコードされた文字カラムを表示する単一の表形式のデータセット。

サマリー
デフォルトのサマリー。選択したパラメータ、入力データ サイズ、出力場所が含まれます。