アンピボット (HD)

1 つ以上のカラムをアンピボットします。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

ノート: アンピボット (HD) オペレーターは、Hadoop データ専用です。データベース データの場合は、アンピボット (DB) オペレーターを使用します。

選択されたカラムは入力から削除され、出力データセットの最後で次の 2 つの新しいカラムに平坦化されます。

  • 最初の列。その値は選択したカラムの名前です。
  • 2 番目の列。その値は、選択したカラムの対応する値です。

入力

HDFS からのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
カラム アンピボットする列。すべてのデータ タイプがサポートされています。
変数カラムの名前 最初の新しいカラムの名前。これには、アンピボットするカラムの名前が含まれます。
ノート: 値は英数字である必要があります。 (一致する正規表現は次のとおりです: "^[A-Za-z]+ \\ w*$")
値カラムの名前 2 番目の新しいカラムの名前。これには、アンピボットするカラムの値が含まれます。
ノート: 値は英数字である必要があります。 (一致する正規表現は次のとおりです: "^[A-Za-z]+ \\ w*$")
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

Y 列と N 行の入力からアンピボットする X カラムを選択した場合、出力データセットには (Y-X+2) 列と (X * N) 行が含まれます。

データ出力

ノート:
  • 「新しい変数」列には、ピボットされていない値の名前が chararray 形式で含まれています。
  • 新しい値カラムの場合:
    • アンピボットするために選択されたすべてのカラムが数値の場合、結果の値列はダブルになります。
    • アンピボットするために選択されたすべてのカラムがまったく同じ形式の日時形式である場合、結果の値列は同じ形式の日時形式になります。
    • 他のすべての場合、結果の値列は chararray になります。
  • すべての Null 値は出力に保持されます。

名前 数学 化学 英語
John 90 70 50
Matt 60 50 80

ピボットを解除する数学、科学、英語のカラムを選択し、主題と学年という名前の新しいカラムを指定すると、結果は次のようになります。

名前 科目 学年
John 数学 90
John 化学 70
John 英語 50
Matt 数学 60
Matt 化学 50
Matt 英語 80