アンスタック
スタック形式の HDFS データセットを取得し、ユーザー指定のグループ・バイとピボット カラムを使用して、スタックされていない (ワイド) HDFS データセットを生成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark SQL |
アンスタックの操作はピボット操作に似ていますが、ピボット操作は数値データのみで動作するのに対し、数値データだけでなくテキスト データも操作できる点が異なります。アンスタックは、保持する複数のカラム (グループ・バイ)、カラム名を含む 1 つのカラム (ピボット カラム)、および出力データセット内の新しいカラムの値を含む 1 つのカラム (集計カラム) を入力として受け取ります。
作成できる新しいカラムの最大数は 10,000 です。ピボット カラムに 10,000 を超える個別の値が含まれている場合、エラーが発生します。
欠落したデータは、出力データセット内で Null 値として表示されます。アンスタックは、日付/時刻とブール値を除くすべてのカラムタイプを入力として処理します。
入力
単一の表形式のデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 新しいカラム名 | 新しいカラムヘッダーを含むカラム名。 |
| 新しいカラムの値 | 値を含むカラム名。 |
| 集計方法 | 新しい値を集計するメソッド。 |
| 保持するカラム | 任意の数の非日付/時刻カラムおよびブール カラム。 |
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
例
次の図では、name と date が行の識別子であり、header と value がピボットするカラムです。操作を完了するために、アンスタックはテキスト値 (テキスト値 1 とテキスト値 2) をピボットし、それらの値を適切な行に配置します。 name が cc に等しい場合、日付 (date4) とヘッダーは 2 つだけあります。これにより、1 行が作成されます。 name が bb に等しい場合、日付が 3 つあり、それぞれに 1 つのヘッダーがあります。これにより、3 行になります。日付のヘッダー値が存在しないカラムは空のままになります。