ピボット (HD)
同じリスト内の別のカラムで定義されている小計 (またはその他の計算) を使用して、テーブルのカラムに含まれるカテゴリーデータを新しいテーブルのカラムに変換できます。他の計算は平均とカウントである可能性があります。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | MapReduce |
Pivot (HD) オペレーターは Hadoop データ専用です。データベース データの場合は、ピボット (DB) オペレーターを使用します。
アルゴリズム
一般的なデータ入力と保存では、データは通常、フラット テーブルに表示されます。これは、データがカラムと行のみで構成されていることを意味します。このようなデータには多くの情報が含まれている可能性がありますが、要約された情報を取得するのが難しい場合があります。ピボット テーブルは、フラットなデータをすばやく要約し、データに深みを与え、必要な情報を強調表示するのに役立ちます。
ピボット テーブルの用途は非常に幅広く、状況に応じて異なります。最初に尋ねる質問は「何を探しているのですか?」です。ピボット テーブルは通常、行、カラム、データ (またはファクト) フィールドで構成されます。これらのフィールドでは、合計、平均、カウント、最大、最小など、数種類の集計が可能です。
ピボット カラムは通常、カテゴリー カラムであり、出力テーブルではカテゴリごとに 1 つずつ複数のカラムに変換されます。
- 結果は、選択したカラムによってもグループ・バイされます。
- 新しいカラムの値は、3 番目のカラム (または、集計カラムが選択されていない場合はカテゴリの存在) の集計です。
- カラムは、(テーブル、ファイル、または配列内で) それらが表すカテゴリの値の降順でリストされます。
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| ピボット カラム | ピボット変換のカラム。任意のデータ タイプのカラムを選択できます。制限: 1,500 個の個別の値。 |
| グループ・バイ | グループ・バイするカラム。 |
| 集計カラム | ピボットカラムの値カラム。 |
| 集計 | 集計関数。オプション:
|
| 結果を保存しますか? | 結果を保存するかどうかを指定します。
|
| 結果ロケーション | オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。 |
| 結果名 | 結果を保存するファイルの名前。 |
| 上書き | そのパスとファイル名の既存のデータを削除するかどうかを指定します。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| Spark を使用する | [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。 |
| 高度な Spark 設定の自動最適化 |
|
出力

配列内の値は、それらが表すカテゴリの値の降順に配置されます。
[配列を使用する] が [false] の場合、またはオペレーターが Hadoop データセットを操作している場合、ピボットされた値はそれぞれ独自のカラムに配置されます。
