複数カラムでの並べ替え
並べ替えの基準となるカラムを最大 3 つ選択でき、選択したカラムによって並べ替えられたデータセットを返します。並べ替え結果に基づいて出力をフィルターできる row_index というカラムが追加されます。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
入力
HDFS からの表形式のデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| プライマリ ソート カラム | 並べ替えの基準となる最初のカラム。 2 番目の並べ替えカラム と 3 番目の並べ替えカラム は空白のままにすることができますが、このカラムは必須です。 |
| プライマリ カラムの並べ替え順序 | 最初のカラムを並べ替える順序: 昇順 (デフォルト) または 降順 |
| 2 次ソート カラム | 並べ替えの基準となる 2 番目のカラム。 1 つのカラムだけで並べ替えるには、このカラムと 3 番目の並べ替えカラム を空白のままにします。 |
| 2 番目のカラムの並べ替え順序 | 2 番目のカラムを並べ替える順序: 昇順 (デフォルト) または 降順 |
| 3 次ソート カラム | 並べ替えの基準となる 3 番目のカラム。 2 つのカラムのみを並べ替えるには、このカラムを空白のままにします。 |
| 3 番目のカラムの並べ替え順序 | 3 番目のカラムを並べ替える順序: 昇順 (デフォルト) または 降順 |
| 「row_index」カラムの作成 | row_index カラムを追加するかどうかを指定します。これにより、ソート インデックスを示す追加のカラムがデータセットに追加されます。 デフォルト値: いいえ |
| Null データにより削除された行をファイルに書き込む | Null 値を含む行 (並べ替えの基準として選択されたカラムのみ) は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。 ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名の接尾辞は _baddata です。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
ビジュアル出力
次の例は、年齢、収入の順に並べ替えられています。

データ出力
並べ替えられたカラムと追加の row_index カラム (選択されている場合) を含むデータセット。