アンスタック

スタック形式の HDFS データセットを取得し、ユーザー指定のグループ・バイとピボット カラムを使用して、スタックされていない (ワイド) HDFS データセットを生成します。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark SQL

アンスタックの操作はピボット操作に似ていますが、ピボット操作は数値データのみで動作するのに対し、数値データだけでなくテキスト データも操作できる点が異なります。アンスタックは、保持する複数のカラム (グループ・バイ)、カラム名を含む 1 つのカラム (ピボット カラム)、および出力データセット内の新しいカラムの値を含む 1 つのカラム (集計カラム) を入力として受け取ります。

作成できる新しいカラムの最大数は 10,000 です。ピボット カラムに 10,000 を超える個別の値が含まれている場合、エラーが発生します。

欠落したデータは、出力データセット内で Null 値として表示されます。アンスタックは、日付/時刻とブール値を除くすべてのカラムタイプを入力として処理します。

入力

単一の表形式のデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
新しいカラム名 新しいカラムヘッダーを含むカラム名。
新しいカラムの値 値を含むカラム名。
集計方法 新しい値を集計するメソッド。
保持するカラム 任意の数の非日付/時刻カラムおよびブール カラム。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
出力データセットの表形式のプレビュー。サマリー出力には、選択されたパラメータ、入力データ サイズ、出力場所が含まれます。
データ出力
単一の表形式のデータセット。
ノート: アンスタック はセミ・ターミナル オペレーターです。部分的なスキーマは設計時に後続のオペレーターに送信できますが、最終的な出力スキーマを確認するには、後続のオペレーターに対してオペレーターを実行する必要があります。

次の図では、namedate が行の識別子であり、headervalue がピボットするカラムです。操作を完了するために、アンスタックはテキスト値 (テキスト値 1 とテキスト値 2) をピボットし、それらの値を適切な行に配置します。 namecc に等しい場合、日付 (date4) とヘッダーは 2 つだけあります。これにより、1 行が作成されます。 namebb に等しい場合、日付が 3 つあり、それぞれに 1 つのヘッダーがあります。これにより、3 行になります。日付のヘッダー値が存在しないカラムは空のままになります。