ユーザー インターフェイスからの Hadoop データ ソースの追加
HDFS データ ソースを追加するには、まず TIBCO Data Science - Team Studio サーバーがホストに接続できることを確認し、データ ソースの追加ダイアログを使用して データ ソースの追加 ダイアログを使用して TIBCO Data Science - Team Studio に追加します。
データ ソースを追加するには、データ管理者以上の権限が必要です。続行する前に、正しい権限があることを確認してください。
- 手順
- メニューから [データ] を選択します。
- [データ ソースの追加] を選択します。
- データ ソース タイプとして [Hadoop クラスタ] を選択します。
- 次のデータ ソース属性を指定します。
データ ソース名 データ ソースのユーザー向けの名前を設定します。これはチームにとって意味のあるものでなければなりません (たとえば、「Dev_CDH5_cluster」)。 説明 データ ソースの説明を入力します。 Hadoop バージョン データ ソースに一致する Hadoop ディストリビューションを選択します。 高可用性を使用する Hadoop クラスターの高可用性を有効にするには、このボックスをオンにします。 Kerberos インパーソネーション(偽装)を無効にする このボックスが選択されており、データ ソースで Kerberos が有効になっている場合、ワークフローはここで Hadoop 認証情報 として構成されたユーザー アカウントを使用します。 このボックスをオフにすると、ワークフローはワークフローを実行しているユーザーのユーザー アカウントを使用します。
データ ソースで Kerberos が有効になっていない場合は、このボックスを選択する必要はありません。すべてのワークフローは、Hadoop 認証情報として設定されたアカウントを使用して実行されます。
NameNode ホスト 開始するには、単一のアクティブな NameNode を入力します。高可用性を有効にする手順はステップ 10 に記載されています。 NameNode がアクティブであることを確認するには、Web インターフェイスを確認します。 (デフォルトは http://namenodehost.localhost:50070/ です)
NameNode ポート NameNode が使用するポートを入力します。デフォルトのポートは 8020 です。 ジョブ トラッカー/リソース マネージャー ホスト MapReduce v1 の場合、ジョブ トラッカーを指定します。YARN の場合、リソース マネージャー ホストを指定します。 ジョブ トラッカー/リソース マネージャー ポート 一般的なポートは 8021、9001、8012、または 8032 です。 ワークスペースの可視性 ここには 2 つのオプションがあります。 - パブリック - すべてのワークスペースに表示され、利用できます。
- 制限付き - 関連付けられているワークスペースのみに表示され、使用できます。
データ ソースをワークスペースに関連付ける方法の詳細については、「データの可視性」を参照してください。
Hadoop 認証情報 MapReduce ジョブの実行に使用するユーザーまたはサービスを指定します。このユーザーは、コマンド ラインから MapReduce ジョブを実行できる必要があります。 グループ リスト Hadoop アカウントが属するグループを入力します。 - さらに設定するには、[接続パラメータの設定] を選択します。
- TIBCO Data Science - Team Studio サーバで YARN のキーと値のペアを指定します。リソース マネージャーから [構成のロード] を選択すると、構成値が自動的に入力されます。
yarn.resourcemanager.scheduler.addressyarn.app.mapreduce.am.staging-dir
ノート:上記のstaging-dir変数で指定したディレクトリが、TIBCO Data Science - Team Studio ユーザーによって書き込み可能であることを確認してください。ユーザーがこのディレクトリに書き込めない場合、Spark ジョブはエラーを生成します。デフォルトと異なる場合は以下は必須です。
yarn.application.classpath- Hadoop クラスターがデフォルトの場所にインストールされている場合、
yarn.application.classpathを更新する必要はありません。 - Hadoop クラスターがデフォルト以外の場所にインストールされており、
yarn.application.classpathの値がデフォルトとは異なる場合、YARN ジョブが「cannot find the class AppMaster」エラーで失敗する可能性があります。この場合は、クラスター構成フォルダー内の yarn-site.xml ファイルを確認してください。 [接続パラメータの設定] オプションを使用して、これらの key:value ペアを設定します。
- Hadoop クラスターがデフォルトの場所にインストールされている場合、
yarn.app.mapreduce.job.client.port-range- これは、アプリケーションがバインドできるポートの範囲を記述します。特定のポートを許可する必要がある制限的なファイアウォールの下で動作している場合に便利です。
推奨:
mapreduce.jobhistory.address = FQDN:10020注意:mapreduce.jobhistory.addressが正しく構成されていない場合、処理に Pig を使用するオペレーターは出力に正しい行数を表示しません。yarn.resourcemanager.hostname = FQDNyarn.resourcemanager.address = FQDNyarn.resourcemanager.scheduler.address = FQDN:8030yarn.resourcemanager.resource-tracker.address = FQDN:8031yarn.resourcemanager.admin.address = FQDN:8033yarn.resourcemanager.webapp.address = FQDN:8088マップリデュース.jobhistory.webapp.address = FQDN:19888
- 設定を保存します。
- データ ソースに対して一連の自動テストを実行するには、[接続テスト] をクリックします。
- [設定を保存] をクリックして変更を確認します。
- 上記でアクティブな NameNode への接続が確立されたら、NameNode High Availability (HA) が有効になっている場合はセットアップします。
必須:
dfs.ha.namenodes.nameservice1dfs.namenode.rpc-address.nameservice1.namenode<id> (各 namenode ID に必須)dfs.nameservicesdfs.client.failover.proxy.provider.nameservice1
推奨:
ha.zookeeper.quorum
ノート:リソース マネージャー HA のサポートが利用可能です。これを構成するには、
failover_resource_manager_hostsを詳細接続パラメータに追加し、使用可能なリソース マネージャーを一覧表示します。ジョブの実行中にアクティブなリソース マネージャーの 1 つに障害が発生した場合、ジョブを再実行する必要がありますが、障害が発生したデータ ソースを再設定する必要はありません。ジョブの実行中にアクティブなリソース マネージャーの 1 つに障害が発生した場合は、何もする必要はありません。TIBCO Data Science - Team Studio は、代わりに別の利用可能なリソース マネージャーを使用します。