折りたたみ
同じリスト内の別のカラムで定義された小計 (またはその他の計算) を使用して、テーブルのカラムに含まれるデータを変換します。他の計算は平均とカウントである可能性があります。その結果、折りたたまれた、または圧縮されたデータセットが生成されます。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | MapReduce |
たとえば、次のデータセットを参照してください。

顧客がオーダーしたフレーバーごとの平均スクープ数を判断するには、id でグループ・バイし、集計カラム number_of_scoops で「平均」を集計します。結果として得られるデータセットを以下に示します。

顧客が各フレーバーをオーダーした回数を確認するには、id でグループ・バイし、「カウント」を集計します (集計カラムは必要ありません)。結果として得られるデータセットを以下に示します。

これは ピボット (DB) オペレーターと似ていますが、最終結果が (n-1) カラムにピボットアウトされるのではなく 1 つのカラムに保存される点が異なります。n は、ピボット/折りたたみカラム内のカテゴリ値の数です。
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 折りたたむカラム | カラムを折りたたむためのルールを定義します。 「カラムを折りたたむダイアログの選択」を参照してください。 |
| グループ・バイ | グループ・バイするカラムを選択します。 「カラムの選択ダイアログ」を参照してください。 |
| 結果を保存しますか? | 結果を保存するかどうかを指定します。
|
| 結果ロケーション | オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。 |
| 結果名 | 結果を保存するファイルの名前。 |
| 上書き | そのパスとファイル名の既存のデータを削除するかどうかを指定します。
|
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプションは次のとおりです。
利用可能な Avro 圧縮オプションは次のとおりです。
|
| Spark を使用する | [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。 |
| 高度な Spark 設定の自動最適化 |
|
出力
表示される出力テーブル/ビューのデータ行 (小さなサンプル)。
新しく作成されたファイルのデータセット。折りたたまれたカラムのタイプは「スパース」です。
その他の注意事項
スパース カラムは通常、ナイーブ ベイズ、SVM、および アソシエーション ルール オペレーターとともに使用されます。他のオペレーターはスパース データ タイプを受け入れますが、値を文字カラムとして扱います。