複数カラムでの並べ替え

並べ替えの基準となるカラムを最大 3 つ選択でき、選択したカラムによって並べ替えられたデータセットを返します。並べ替え結果に基づいて出力をフィルターできる row_index というカラムが追加されます。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

入力

HDFS からの表形式のデータセット。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
プライマリ ソート カラム 並べ替えの基準となる最初のカラム。 2 番目の並べ替えカラム3 番目の並べ替えカラム は空白のままにすることができますが、このカラムは必須です。
プライマリ カラムの並べ替え順序 最初のカラムを並べ替える順序: 昇順 (デフォルト) または 降順
2 次ソート カラム 並べ替えの基準となる 2 番目のカラム。 1 つのカラムだけで並べ替えるには、このカラムと 3 番目の並べ替えカラム を空白のままにします。
2 番目のカラムの並べ替え順序 2 番目のカラムを並べ替える順序: 昇順 (デフォルト) または 降順
3 次ソート カラム 並べ替えの基準となる 3 番目のカラム。 2 つのカラムのみを並べ替えるには、このカラムを空白のままにします。
3 番目のカラムの並べ替え順序 3 番目のカラムを並べ替える順序: 昇順 (デフォルト) または 降順
「row_index」カラムの作成 row_index カラムを追加するかどうかを指定します。これにより、ソート インデックスを示す追加のカラムがデータセットに追加されます。

デフォルト値: いいえ

Null データにより削除された行をファイルに書き込む Null 値を含む行 (並べ替えの基準として選択されたカラムのみ) は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。

  • ファイルに Null 行を書き込まない (デフォルト) - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
次の例は、年齢、収入の順に並べ替えられています。

データ出力
並べ替えられたカラムと追加の row_index カラム (選択されている場合) を含むデータセット。