折りたたみ

同じリスト内の別のカラムで定義された小計 (またはその他の計算) を使用して、テーブルのカラムに含まれるデータを変換します。他の計算は平均とカウントである可能性があります。その結果、折りたたまれた、または圧縮されたデータセットが生成されます。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール MapReduce

アルゴリズム
一般的なデータ入力と保存では、データは通常、フラット テーブルに表示されます。これは、データがカラムと行のみで構成されていることを意味します。このようなデータには多くの情報が含まれている可能性がありますが、要約された情報を取得するのが難しい場合があります。折りたたまれたテーブルは、複数の行のデータを 1 つの行に結合することで、フラットなデータをすばやく要約し、データに深みを与え、必要な情報を強調表示するのに役立ちます。折りたたまれたカラムの出力形式は「スパース」です。

たとえば、次のデータセットを参照してください。

顧客がオーダーしたフレーバーごとの平均スクープ数を判断するには、id でグループ・バイし、集計カラム number_of_scoops で「平均」を集計します。結果として得られるデータセットを以下に示します。

顧客が各フレーバーをオーダーした回数を確認するには、id でグループ・バイし、「カウント」を集計します (集計カラムは必要ありません)。結果として得られるデータセットを以下に示します。

これは ピボット (DB) オペレーターと似ていますが、最終結果が (n-1) カラムにピボットアウトされるのではなく 1 つのカラムに保存される点が異なります。n は、ピボット/折りたたみカラム内のカテゴリ値の数です。

入力

前のオペレーターからのデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
折りたたむカラム カラムを折りたたむためのルールを定義します。

カラムを折りたたむダイアログの選択」を参照してください。

グループ・バイ グループ・バイするカラムを選択します。

カラムの選択ダイアログ」を参照してください。

結果を保存しますか? 結果を保存するかどうかを指定します。
  • true - 結果が保存されます。
  • false - データセットは保存せずに次のオペレーターに渡されます。
結果ロケーション オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。
結果名 結果を保存するファイルの名前。
上書き そのパスとファイル名の既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプションは次のとおりです。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプションは次のとおりです。

  • Deflate
  • Snappy
  • 圧縮なし
Spark を使用する [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

表示される出力テーブル/ビューのデータ行 (小さなサンプル)。

データ出力

新しく作成されたファイルのデータセット。折りたたまれたカラムのタイプは「スパース」です。

その他の注意事項

スパース カラムは通常、ナイーブ ベイズ、SVM、および アソシエーション ルール オペレーターとともに使用されます。他のオペレーターはスパース データ タイプを受け入れますが、値を文字カラムとして扱います。