ユーザー インターフェイスからの Spark クラスターの追加

Spark クラスターを追加するには、まず、TIBCO Data Science - Team Studio サーバがホストに接続できることを確認します。

始める前に

Spark クラスターを追加するには、データ管理者以上の権限が必要です。続行する前に、正しい権限があることを確認してください。

    手順

    TIBCO Data Science - Team Studio で Spark クラスタを追加するには、以下の手順を実行します。

  1. サイドバー メニューから [データ] を選択します。

  2. [データ ソース] ページで、[データ ソースの追加]をクリックします。

  3. データ ソースの追加 ダイアログが表示されます。 [データ ソース タイプ] ドロップダウン リストから、[Spark クラスター] を選択します。

    データ ソースの追加 - Spark クラスター

  4. [データ ソース名] フィールドに、ユーザーに表示される名前を指定します。役立つテキストを提供できます。
  5. [説明] フィールドに、Spark クラスターに関する役立つ説明を入力します。このフィールドはオプションです。
  6. [クラスタ マネージャー タイプ] ドロップダウン リストから、Spark のクラスタ マネージャーを選択します。使用可能なオプションは、Apache Spark スタンドアローンYARN です。
    1. [Apache Spark スタンドアローン] が選択されている場合は、Spark の URL を [Spark Master URL] フィールドに入力します。
    2. [YARN] が選択されている場合は、次の手順を実行します。
      1. YARN 構成ファイルで、[ファイルの選択] をクリックし、ローカル システムにある (yarn-site.xml および core-site.xml) を参照します。
        ノート:YARN クラスターから (yarn-site.xml および core-site.xml) ファイルをダウンロードできます。これらのファイルはクラスター管理者から取得することもできます。

        アップロードする前に、core-site.xml ファイルを開き、io.compression.codecs プロパティから com.hadoop.compression.lzo.LzoCodeccom.hadoop.compression.lzo.LzopCodec の値を削除します。

      2. [Hadoop ユーザー名] フィールドに、Hadoop ユーザー名を入力します。
        ノート:ユーザー名は、Hadoop クラスターの /user ディレクトリで使用できる必要があります。ユーザーは読み取り/書き込み権限を持っている必要があります。権限の問題が発生した場合は、「HDFS ディレクトリと結果ファイル ストレージの権限の設定」を参照してください。
  7. さらに詳細な設定を行うには、[接続パラメータの設定] を選択します。 接続パラメータの設定ダイアログが表示されます。
    接続パラメータの構成
    1. TIBCO Data Science - Team Studio サーバーで YARN のキーと値のペアを指定します。
    2. 新しいパラメータを追加するには、[パラメータを追加] をクリックします。
    3. 接続パラメータを一括編集するには、[一括編集]をクリックします。
    4. [保存] をクリックします。

    詳細については、「接続パラメータの設定」を参照してください。

  8. ワークスペースの可視性 ドロップダウン リストで、ワークスペースの可視性を選択します。使用可能なオプションは [公開][制限付き] です。

    ノート:[制限付き] の可視性を持つデータ ソースは、ワークスペースのメンバーがデータ ソースを使用できるように手動でワークスペースに関連付ける必要があります。データ ソースをワークスペースに関連付ける方法の詳細については、「データの可視性」を参照してください。
  9. [ファイルから構成をロード] を使用すると、別の Spark クラスター接続から保存されたファイルから値を設定できます。

  10. [データ ソースの追加] をクリックしてデータ ソースを追加します。