Hadoop へのコピー

リレーショナル データを Hadoop クラスターにコピーするメカニズムを提供します。

Hadoop へのコピーする

情報一覧

パラメーター

説明
カテゴリー データ ロード
データ ソース タイプ DB
出力を他のオペレーターに送信 はい
データ処理ツール Sqoop

Copy to Hadoop オペレーターは通常、コピーされたデータを保存するために Hadoop ファイル システム上に新しいファイルを作成します。データベース テーブルに関連付けられたカラムとデータ タイプの情報は、構造を Hadoop ファイルに関連付けるために使用されます。

ユーザーが指定した宛先ファイルがすでに存在する場合、オペレーターは最初にファイルをドロップするか、操作をスキップするか、エラーを生成することができます。オペレーターは、新しいデータを既存のファイルに追加できる場合もありますが、これは Hadoop クラスターがこの操作をサポートしている場合に限られます。

コピー プロセスは、パラレル モードまたはシンプル モードで実行できます。

入力

データベース内に結果を生成するデータセットまたはオペレーター。

制限事項

Pig と Sqoop は、データを Hadoop へのコピーするために使用されます。Pig はカラム名に一部の文字を受け入れません。カラム名に [ A-Z a-z 0-9 _ ] + 以外の文字が含まれている場合、不適合な文字はアンダースコア文字 (_) に置き換えられて、有効なカラム名が作成されます。データに名前の衝突を引き起こす可能性のあるカラムが含まれている場合は、これらのカラム名にアンダースコアと整数 (_1、_2 など) が追加されます。たとえば、column@a および column#a という名前のカラムを持つテーブルを考えてみましょう。この場合、カラムの名前は column_a と column_a に変更され、column_a_1 と column_a_2 として区別されます。

さらに、Pig ではカラム名の最初の文字が文字である必要があります。そうでない場合は、TIBCO Data Science - Team Studio では、カラム名の先頭に「a」が追加されます。したがって、/column という名前のカラムは a_column という名前に変更されます。

ノート: Pig と Sqoop には両方とも、カラム名にバックスラッシュが含まれる場合にエラーが発生する可能性があるバグが含まれているため、カラム名にバックスラッシュを使用しないでください。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
コピー先 データのコピーに使用されるデータ ソース接続。デフォルト値: CDH5
デスティネーション データをコピーするフォルダー。

[ファイルの選択] をクリックして、既存の Hadoop ファイル構造を参照し、その中の宛先の場所を指定します。

ファイル名 データが保存されているファイルの名前。デフォルト値: tohd_0
ファイルが存在する場合 ファイル名 で指定した宛先テーブルがすでに存在する場合は、次のいずれかのオプションを選択します。
  • ドロップ (デフォルト) - 最初にテーブルを削除します。
  • エクステンド - 新しいデータを追加します。
  • エラー - エラーを報告し、ワークフローの実行を停止します。
  • スキップ - 操作をスキップします。

オペレーターは、Hadoop バージョンがこの操作をサポートしている場合に限り、新しいデータを既存のファイルに追加することもできます。

コピー モード コピー方法。
  • パラレル (デフォルト) - 基礎となる Sqoop テクノロジーを使用して並列コピーします。
  • シンプル - バッチ処理のコピー プロセスを使用してコピーします。
コピー タスクの数 [パラレル] コピー モードのみ。Sqoop 並列処理コピー モードに使用する並列プロセスの数。

デフォルト値: 4

作業を分割する Hadoop ファイル システム構造にデータを保存するために使用するデータベース列。カラムを 1 つ指定する必要があります。
高度なパラメーター [設定] をクリックして 高度なパラメーター設定ダイアログ を表示し、Sqoop を使用した並列コピーの詳細設定パラメーターを設定します。
フェッチサイズ データベースから一度に読み取るエントリの数。これは、--fetch-size Sqoop パラメーターと同等です。

デフォルト値: 20000

出力

Copy to Hadoop オペレーターの出力は、Hadoop ファイルを受け入れるオペレーターへの入力として使用できます。

ビジュアル出力
コピーされたデータの行のプレビュー。
データ出力
宛先ファイルに対応する Hadoop ファイル。