行フィルター (HD)
データセット行をフィルタリングするための基準を設定します。基準を満たす行のみが出力データセットに残ります。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Pig |
ノート: 行フィルター (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、行フィルター (DB) オペレーターを使用します。
次のモードで行フィルターを指定できます。
- シンプル モード: シンプル テンプレートを使用してフィルターを定義し、カラム、不等号 (">" または "between"など)、および値 (リテラル値やカラム式など) を選択します。
- スクリプト モード: Pig スクリプトを使用して、ほぼすべてのフィルターのセットを入力します。
入力
前のオペレーターからのデータセット。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| フィルター | オペレーター用のフィルター。詳細については、「フィルターの定義ダイアログ」を参照してください。 |
| 行制限を使用する? | 行制限を使用してフィルタリングを指定した行に制限するかどうかを指定します。デフォルト: false |
| 行制限 | [行制限を使用する?] が [true] に設定されている場合は、このフィールドにフィルタリングを制限する行数を設定します。 |
| 結果を保存する? | 結果を保存するかどうかを指定します。
|
| 結果ロケーション | オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。 |
| 結果名 | 結果を保存するファイルの名前。 |
| 上書き | そのパスとファイル名の既存のデータを削除するかどうかを指定します。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| Spark を使用する | [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。 |
| 高度な Spark 設定の自動最適化 |
|
出力
ビジュアル出力
表示される出力テーブルまたはビューのデータ行 (最大 200 行のデータ)。
データ出力
新しく作成されたテーブルまたは新しいファイル。