Hadoop へのコピー
リレーショナル データを Hadoop クラスターにコピーするメカニズムを提供します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | データ ロード |
| データ ソース タイプ | DB |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Sqoop |
Copy to Hadoop オペレーターは通常、コピーされたデータを保存するために Hadoop ファイル システム上に新しいファイルを作成します。データベース テーブルに関連付けられたカラムとデータ タイプの情報は、構造を Hadoop ファイルに関連付けるために使用されます。
ユーザーが指定した宛先ファイルがすでに存在する場合、オペレーターは最初にファイルをドロップするか、操作をスキップするか、エラーを生成することができます。オペレーターは、新しいデータを既存のファイルに追加できる場合もありますが、これは Hadoop クラスターがこの操作をサポートしている場合に限られます。
コピー プロセスは、パラレル モードまたはシンプル モードで実行できます。
入力
データベース内に結果を生成するデータセットまたはオペレーター。
制限事項
Pig と Sqoop は、データを Hadoop へのコピーするために使用されます。Pig はカラム名に一部の文字を受け入れません。カラム名に [ A-Z a-z 0-9 _ ] + 以外の文字が含まれている場合、不適合な文字はアンダースコア文字 (_) に置き換えられて、有効なカラム名が作成されます。データに名前の衝突を引き起こす可能性のあるカラムが含まれている場合は、これらのカラム名にアンダースコアと整数 (_1、_2 など) が追加されます。たとえば、column@a および column#a という名前のカラムを持つテーブルを考えてみましょう。この場合、カラムの名前は column_a と column_a に変更され、column_a_1 と column_a_2 として区別されます。
さらに、Pig ではカラム名の最初の文字が文字である必要があります。そうでない場合は、TIBCO Data Science - Team Studio では、カラム名の先頭に「a」が追加されます。したがって、/column という名前のカラムは a_column という名前に変更されます。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| コピー先 | データのコピーに使用されるデータ ソース接続。デフォルト値: CDH5 |
| デスティネーション | データをコピーするフォルダー。 [ファイルの選択] をクリックして、既存の Hadoop ファイル構造を参照し、その中の宛先の場所を指定します。 |
| ファイル名 | データが保存されているファイルの名前。デフォルト値: tohd_0 |
| ファイルが存在する場合 | ファイル名 で指定した宛先テーブルがすでに存在する場合は、次のいずれかのオプションを選択します。
オペレーターは、Hadoop バージョンがこの操作をサポートしている場合に限り、新しいデータを既存のファイルに追加することもできます。 |
| コピー モード | コピー方法。
|
| コピー タスクの数 | [パラレル] コピー モードのみ。Sqoop 並列処理コピー モードに使用する並列プロセスの数。 デフォルト値: 4 |
| 作業を分割する | Hadoop ファイル システム構造にデータを保存するために使用するデータベース列。カラムを 1 つ指定する必要があります。 |
| 高度なパラメーター | [設定] をクリックして 高度なパラメーター設定ダイアログ を表示し、Sqoop を使用した並列コピーの詳細設定パラメーターを設定します。 |
| フェッチサイズ | データベースから一度に読み取るエントリの数。これは、--fetch-size Sqoop パラメーターと同等です。デフォルト値: 20000 |
出力
Copy to Hadoop オペレーターの出力は、Hadoop ファイルを受け入れるオペレーターへの入力として使用できます。