変数 (HD)
入力データセットのデータ フィールドから作成された変数を定義し、新しいテーブルまたはビューを形成するために使用します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | トランスフォーム |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Pig |
ノート: 変数 (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、変数 (DB) オペレーターを使用します。
重要: 作成された変数は本質的に静的です。実行時に動的に変更することはできません。
また、変数オペレーターを使用すると、データ行を分位数に分割し、データに分位数変数を追加することもできます。データをこのようにさらに小さな分割 (分位数) に分割すると、全体的なデータ分布パターンを理解できるようになります。
入力
データセットを出力できるオペレーター。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 変数 | 新しい変数カラムを作成する式を定義します。 詳細については、「変数の定義 ダイアログ」および「分位変数の定義ダイアログ」を参照してください。 |
| 分位変数 | 作成する新しい変数が分位値変数の場合は、分位値の導出に使用する必要なカラムを選択します。 可能な分位値タイプは、[平均上昇率] (ビンを自動的に作成します) と [カスタマイズ] (変数ビンを手動で定義します) です。 |
| カラム | 「カラムの選択ダイアログ」を参照してください。 |
| 結果を保存しますか? | 結果を保存するかどうかを指定します。
|
| 結果ロケーション | オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。 |
| 結果名 | 結果を保存するファイルの名前。 |
| 上書き | そのパスとファイル名の既存のデータを削除するかどうかを指定します。
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| Spark を使用する | [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。 |
| 高度な Spark 設定の自動最適化 |
|
出力
ビジュアル出力
表示される出力テーブルまたはビューのデータ行。新しい変数列 (以下の例の morethan3k など) が表示されます。
派生変数に加えてすべてのデータ行を表示するには、[カラム] パラメーターですべてのカラムを選択します。

データ出力
新しく作成されたテーブルまたはビューのデータセット。
その他の注意事項
変数オペレーターは、次の便利な関数も提供します。
- JSON、辞書、データベース STRUCT 形式などのキー・バリュー ペア形式で保存されたデータ フィールドを解析します。詳細については、「変数オペレーターを使用したキー・バリュー ペアの解析例」を参照してください。
datetime形式を変換します。詳細については、「日時形式の変換例」を参照してください。