時系列 SAX エンコーダ
時系列 ID と元の時系列の離散化された文字列表現を含む 1 つ以上のカラムを含む新しいデータセットを生成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark SQL |
オペレーターは、入力テーブルの行内の各時系列を取得し、ユーザーが要求した各入力時系列の圧縮表現を作成します。ユーザーが要求した場合、Null 値は削除され、時系列は Z 正規化されます。
次に、時系列はユーザーが要求したビン数 (SAX 文字列長 パラメーターで指定) に分割されます。時系列の長さが要求されたビンの数で正確に割り切れない場合、オペレーターは部分寄与アプローチを使用して、各ビンに含めるデータ ポイントの数を決定します。
たとえば、時系列に 10 個のデータ ポイントがあり、ユーザーが 3 のビン サイズを要求した場合、ビン分割は次のようになります。
- 最初のビンは最初の 3 ポイントと 4 番目のポイントの 1/3 を獲得します。
- 2 番目のビンは、4 番目のポイントの 3 分の 2、5 番目と 6 番目のポイント、および 7 番目のポイントの 3 分の 2 を獲得します。
- 3 番目のビンは 7 番目のポイントの 3 分の 1 に、最後の 3 ポイントを加えたものを獲得します。
時系列がビン化されると、ユーザーの選択 (集計方法 パラメーターで指定) に従って各ビン内の値が集計されます。ユーザーが集計出力を要求した場合、値が返されます。それ以外の場合、集計値は標準正規分布と比較され、分布の対応する部分が出力として返されます。
入力
単一の表形式のデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 時系列カラムの範囲 | 時系列を含む列番号範囲を 1 行に 1 つの系列で指定します。 |
| 集計方法 | SAX エンコードで使用する集計方法を指定します - 平均 (デフォルト)、最大、中央値、または 最小。 |
| SAX 文字列の長さ | 時系列を離散化するビンの数を指定します。 |
| SAX アルファベット サイズ | Z 正規分布を分割する間隔の数を指定します。 |
| 時系列 ID カラム | 出力をわかりやすくするための、時系列の ID を含むオプションのカラム名。名前が指定されていない場合は、TIBCO Data Science - Team Studio 行 ID を含む ID カラムを出力に生成します。 |
| 保持するカラム | [カラムの選択] ボタンをクリックして、入力データセットから出力に追加するカラムを選択します。 |
| 出力形式 | 出力形式を定義します。
|
| Z 正規化入力 | 入力時系列を標準化するかどうかを指定します。 [はい] (デフォルト) または [いいえ]。 |
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 高度な Spark 設定の自動最適化 |
|
出力

