ユーザー インターフェイスからの Hadoop データ ソースの追加

HDFS データ ソースを追加するには、まず TIBCO Data Science - Team Studio サーバーがホストに接続できることを確認し、データ ソースの追加ダイアログを使用して データ ソースの追加 ダイアログを使用して TIBCO Data Science - Team Studio に追加します。

サポートされている Hadoop ディストリビューションは、「TIBCO Data Science - Team Studio システム要件」に記載されています。
始める前に

データ ソースを追加するには、データ管理者以上の権限が必要です。続行する前に、正しい権限があることを確認してください。

    手順
  1. メニューから [データ] を選択します。
  2. [データ ソースの追加] を選択します。
  3. データ ソース タイプとして [Hadoop クラスタ] を選択します。
     
  4. 次のデータ ソース属性を指定します。
    データ ソース名 データ ソースのユーザー向けの名前を設定します。これはチームにとって意味のあるものでなければなりません (たとえば、「Dev_CDH5_cluster」)。
    説明 データ ソースの説明を入力します。
    Hadoop バージョン データ ソースに一致する Hadoop ディストリビューションを選択します。
    高可用性を使用する Hadoop クラスターの高可用性を有効にするには、このボックスをオンにします。
    Kerberos インパーソネーション(偽装)を無効にする このボックスが選択されており、データ ソースで Kerberos が有効になっている場合、ワークフローはここで Hadoop 認証情報 として構成されたユーザー アカウントを使用します。

    このボックスをオフにすると、ワークフローはワークフローを実行しているユーザーのユーザー アカウントを使用します。

    データ ソースで Kerberos が有効になっていない場合は、このボックスを選択する必要はありません。すべてのワークフローは、Hadoop 認証情報として設定されたアカウントを使用して実行されます。

    NameNode ホスト 開始するには、単一のアクティブな NameNode を入力します。高可用性を有効にする手順はステップ 10 に記載されています。

    NameNode がアクティブであることを確認するには、Web インターフェイスを確認します。 (デフォルトは http://namenodehost.localhost:50070/ です)

    NameNode ポート NameNode が使用するポートを入力します。デフォルトのポートは 8020 です。
    ジョブ トラッカー/リソース マネージャー ホスト MapReduce v1 の場合、ジョブ トラッカーを指定します。YARN の場合、リソース マネージャー ホストを指定します。
    ジョブ トラッカー/リソース マネージャー ポート 一般的なポートは 8021、9001、8012、または 8032 です。
    ワークスペースの可視性 ここには 2 つのオプションがあります。

    • パブリック - すべてのワークスペースに表示され、利用できます。
    • 制限付き - 関連付けられているワークスペースのみに表示され、使用できます。

    データ ソースをワークスペースに関連付ける方法の詳細については、「データの可視性」を参照してください。

    Hadoop 認証情報 MapReduce ジョブの実行に使用するユーザーまたはサービスを指定します。このユーザーは、コマンド ラインから MapReduce ジョブを実行できる必要があります。
    グループ リスト Hadoop アカウントが属するグループを入力します。
  5. さらに設定するには、[接続パラメータの設定] を選択します。
  6. TIBCO Data Science - Team Studio サーバで YARN のキーと値のペアを指定します。リソース マネージャーから [構成のロード] を選択すると、構成値が自動的に入力されます。
    • yarn.resourcemanager.scheduler.address
    • yarn.app.mapreduce.am.staging-dir

    ノート:上記の staging-dir 変数で指定したディレクトリが、TIBCO Data Science - Team Studio ユーザーによって書き込み可能であることを確認してください。ユーザーがこのディレクトリに書き込めない場合、Spark ジョブはエラーを生成します。

    デフォルトと異なる場合は以下は必須です。

    • yarn.application.classpath
      • Hadoop クラスターがデフォルトの場所にインストールされている場合、yarn.application.classpath を更新する必要はありません。
      • Hadoop クラスターがデフォルト以外の場所にインストールされており、yarn.application.classpath の値がデフォルトとは異なる場合、YARN ジョブが「cannot find the class AppMaster」エラーで失敗する可能性があります。この場合は、クラスター構成フォルダー内の yarn-site.xml ファイルを確認してください。 [接続パラメータの設定] オプションを使用して、これらの key:value ペアを設定します。
    • yarn.app.mapreduce.job.client.port-range
      • これは、アプリケーションがバインドできるポートの範囲を記述します。特定のポートを許可する必要がある制限的なファイアウォールの下で動作している場合に便利です。

    推奨:

    • mapreduce.jobhistory.address = FQDN:10020
      注意: mapreduce.jobhistory.address が正しく構成されていない場合、処理に Pig を使用するオペレーターは出力に正しい行数を表示しません。
    • yarn.resourcemanager.hostname = FQDN
    • yarn.resourcemanager.address = FQDN
    • yarn.resourcemanager.scheduler.address = FQDN:8030
    • yarn.resourcemanager.resource-tracker.address = FQDN:8031
    • yarn.resourcemanager.admin.address = FQDN:8033
    • yarn.resourcemanager.webapp.address = FQDN:8088
    • マップリデュース.jobhistory.webapp.address = FQDN:19888

     
  7. 設定を保存します。
  8. データ ソースに対して一連の自動テストを実行するには、[接続テスト] をクリックします。
  9. [設定を保存] をクリックして変更を確認します。
  10. 上記でアクティブな NameNode への接続が確立されたら、NameNode High Availability (HA) が有効になっている場合はセットアップします。

    必須:

    • dfs.ha.namenodes.nameservice1
    • dfs.namenode.rpc-address.nameservice1.namenode<id> (各 namenode ID に必須)
    • dfs.nameservices
    • dfs.client.failover.proxy.provider.nameservice1

    推奨:

    • ha.zookeeper.quorum

    ノート:リソース マネージャー HA のサポートが利用可能です。

    これを構成するには、failover_resource_manager_hosts を詳細接続パラメータに追加し、使用可能なリソース マネージャーを一覧表示します。

    ジョブの実行中にアクティブなリソース マネージャーの 1 つに障害が発生した場合、ジョブを再実行する必要がありますが、障害が発生したデータ ソースを再設定する必要はありません。ジョブの実行中にアクティブなリソース マネージャーの 1 つに障害が発生した場合は、何もする必要はありません。TIBCO Data Science - Team Studio は、代わりに別の利用可能なリソース マネージャーを使用します。