ジョイン条件定義ダイアログ (Hadoop)

Hadoop データ ソースでのジョイン操作の場合、一方または両方のデータ ソースにすべてのレコードを含めるかどうか、Pig ジョイン スクリプトを使用するかどうかなど、2 つのソースの条件を指定できます。

パラメーター 説明
各テーブルの一致する行のカラム 各データセットから、一致するカラムとジョインの条件を選択します。
  • [条件の追加] をクリックして行と条件を追加します。
  • 条件を削除するには、[削除] をクリックします。
ジョイン タイプ
  • 他のデータセットに一致する行が見つからない場合でも、各データセットの行を含めるタイミングを指定します。
  • [ジョイン実行のために Pig ジョイン スクリプトを使用する] を選択して、定義されたジョインを基本的な Pig ベースのジョインに戻します。
    ノート: このオプションを選択すると、メモリ内でレプリケーションを実行するオプションが無効になります。
  • ノード間でレプリケーションを実行するためのデータセットを選択します。これは、パフォーマンスを向上させるために、ジョインの小さいデータセットをメモリ内にレプリケートするかどうかを指定します。
    ノート: これは、両方のデータセットが大きくない場合にのみ意味があり、一方をメモリに保存するとジョイン結果が高速になります。
出力 [ジョイン] をクリックしてフィルタリングし、[入力] で選択したカラムのみを表示します。
入力 [出力用に選択されたフィールド] に入力するデータセットを選択します。
出力ファイル用に選択されたフィールド
  • 出力カラムの選択: 出力テーブルに含めるカラムを各入力テーブルから選択します。
  • エイリアス: カラムのエイリアス フィールドをクリックして変更することで、各入力テーブルに一意のテーブル エイリアスを割り当てることができます。