ピボット (HD)

同じリスト内の別のカラムで定義されている小計 (またはその他の計算) を使用して、テーブルのカラムに含まれるカテゴリーデータを新しいテーブルのカラムに変換できます。他の計算は平均とカウントである可能性があります。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール MapReduce

Pivot (HD) オペレーターは Hadoop データ専用です。データベース データの場合は、ピボット (DB) オペレーターを使用します。

アルゴリズム

一般的なデータ入力と保存では、データは通常、フラット テーブルに表示されます。これは、データがカラムと行のみで構成されていることを意味します。このようなデータには多くの情報が含まれている可能性がありますが、要約された情報を取得するのが難しい場合があります。ピボット テーブルは、フラットなデータをすばやく要約し、データに深みを与え、必要な情報を強調表示するのに役立ちます。

ピボット テーブルの用途は非常に幅広く、状況に応じて異なります。最初に尋ねる質問は「何を探しているのですか?」です。ピボット テーブルは通常、行、カラム、データ (またはファクト) フィールドで構成されます。これらのフィールドでは、合計、平均、カウント、最大、最小など、数種類の集計が可能です。

ピボット カラムは通常、カテゴリー カラムであり、出力テーブルではカテゴリごとに 1 つずつ複数のカラムに変換されます。

  • 結果は、選択したカラムによってもグループ・バイされます。
  • 新しいカラムの値は、3 番目のカラム (または、集計カラムが選択されていない場合はカテゴリの存在) の集計です。
  • カラムは、(テーブル、ファイル、または配列内で) それらが表すカテゴリの値の降順でリストされます。

ノート: このオペレーターは、特定の状況でのみ後続のオペレーターに接続できます。詳細については、以下の「出力」セクションを参照してください。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
ピボット カラム ピボット変換のカラム。任意のデータ タイプのカラムを選択できます。制限: 1,500 個の個別の値。
グループ・バイ グループ・バイするカラム。
集計カラム ピボットカラムの値カラム。
集計 集計関数。オプション:

  • sum
  • average
  • count
  • max
  • min

結果を保存しますか? 結果を保存するかどうかを指定します。
  • true - 結果が保存されます。
  • false - データセットは保存せずに次のオペレーターに渡されます。
結果ロケーション オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。
結果名 結果を保存するファイルの名前。
上書き そのパスとファイル名の既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
Spark を使用する [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
[配列を使用する] が [true] の場合、ピボットされた値は 1 つのカラムの配列に格納されます。

配列内の値は、それらが表すカテゴリの値の降順に配置されます。

[配列を使用する] が [false] の場合、またはオペレーターが Hadoop データセットを操作している場合、ピボットされた値はそれぞれ独自のカラムに配置されます。

データ出力
[配列を使用する] が [true] の場合、出力は後続のオペレーターに送信されません。