変数 (HD)

入力データセットのデータ フィールドから作成された変数を定義し、新しいテーブルまたはビューを形成するために使用します。

情報一覧

パラメーター

説明
カテゴリー トランスフォーム
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Pig

ノート: 変数 (HD) オペレーターは、Hadoop データのみに使用されます。データベース データの場合は、変数 (DB) オペレーターを使用します。
重要: 作成された変数は本質的に静的です。実行時に動的に変更することはできません。

また、変数オペレーターを使用すると、データ行を分位数に分割し、データに分位数変数を追加することもできます。データをこのようにさらに小さな分割 (分位数) に分割すると、全体的なデータ分布パターンを理解できるようになります。

入力

データセットを出力できるオペレーター。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
変数 新しい変数カラムを作成する式を定義します。

詳細については、「変数の定義 ダイアログ」および「分位変数の定義ダイアログ」を参照してください。

分位変数 作成する新しい変数が分位値変数の場合は、分位値の導出に使用する必要なカラムを選択します。

可能な分位値タイプは、[平均上昇率] (ビンを自動的に作成します) と [カスタマイズ] (変数ビンを手動で定義します) です。

カラム カラムの選択ダイアログ」を参照してください。
結果を保存しますか? 結果を保存するかどうかを指定します。
  • true - 結果が保存されます。
  • false - データセットは保存せずに次のオペレーターに渡されます。
結果ロケーション オペレーターの結果が保存される HDFS ディレクトリ。これはメイン ディレクトリであり、そのサブディレクトリは 結果名で指定されます。 [ファイルの選択] をクリックして Hadoop ファイル エクスプローラー ダイアログ を開き、ストレージの場所を参照します。テキストを直接編集しないでください。
結果名 結果を保存するファイルの名前。
上書き そのパスとファイル名の既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
Spark を使用する [はい] (デフォルト) の場合、Spark を使用して計算時間を最適化します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
表示される出力テーブルまたはビューのデータ行。新しい変数列 (以下の例の morethan3k など) が表示されます。

派生変数に加えてすべてのデータ行を表示するには、[カラム] パラメーターですべてのカラムを選択します。

データ出力
新しく作成されたテーブルまたはビューのデータセット。

その他の注意事項

変数オペレーターは、次の便利な関数も提供します。