ユーザー インターフェイスからの Spark クラスターの追加
Spark クラスターを追加するには、まず、TIBCO Data Science - Team Studio サーバがホストに接続できることを確認します。
始める前に
Spark クラスターを追加するには、データ管理者以上の権限が必要です。続行する前に、正しい権限があることを確認してください。
- 手順
- サイドバー メニューから [データ] を選択します。

- [データ ソース] ページで、[データ ソースの追加]をクリックします。

- データ ソースの追加 ダイアログが表示されます。 [データ ソース タイプ] ドロップダウン リストから、[Spark クラスター] を選択します。

- [データ ソース名] フィールドに、ユーザーに表示される名前を指定します。役立つテキストを提供できます。
- [説明] フィールドに、Spark クラスターに関する役立つ説明を入力します。このフィールドはオプションです。
- [クラスタ マネージャー タイプ] ドロップダウン リストから、Spark のクラスタ マネージャーを選択します。使用可能なオプションは、Apache Spark スタンドアローン と YARN です。
- [Apache Spark スタンドアローン] が選択されている場合は、Spark の URL を [Spark Master URL] フィールドに入力します。
- [YARN] が選択されている場合は、次の手順を実行します。
- YARN 構成ファイルで、[ファイルの選択] をクリックし、ローカル システムにある (yarn-site.xml および core-site.xml) を参照します。ノート:YARN クラスターから (yarn-site.xml および core-site.xml) ファイルをダウンロードできます。これらのファイルはクラスター管理者から取得することもできます。
アップロードする前に、core-site.xml ファイルを開き、
io.compression.codecsプロパティからcom.hadoop.compression.lzo.LzoCodecとcom.hadoop.compression.lzo.LzopCodecの値を削除します。 - [Hadoop ユーザー名] フィールドに、Hadoop ユーザー名を入力します。ノート:ユーザー名は、Hadoop クラスターの /user ディレクトリで使用できる必要があります。ユーザーは読み取り/書き込み権限を持っている必要があります。権限の問題が発生した場合は、「HDFS ディレクトリと結果ファイル ストレージの権限の設定」を参照してください。
- YARN 構成ファイルで、[ファイルの選択] をクリックし、ローカル システムにある (yarn-site.xml および core-site.xml) を参照します。
- さらに詳細な設定を行うには、[接続パラメータの設定] を選択します。 接続パラメータの設定ダイアログが表示されます。

- TIBCO Data Science - Team Studio サーバーで YARN のキーと値のペアを指定します。
- 新しいパラメータを追加するには、[パラメータを追加] をクリックします。
- 接続パラメータを一括編集するには、[一括編集]をクリックします。
- [保存] をクリックします。
詳細については、「接続パラメータの設定」を参照してください。
-
ワークスペースの可視性 ドロップダウン リストで、ワークスペースの可視性を選択します。使用可能なオプションは [公開] と [制限付き] です。
ノート:[制限付き] の可視性を持つデータ ソースは、ワークスペースのメンバーがデータ ソースを使用できるように手動でワークスペースに関連付ける必要があります。データ ソースをワークスペースに関連付ける方法の詳細については、「データの可視性」を参照してください。 -
[ファイルから構成をロード] を使用すると、別の Spark クラスター接続から保存されたファイルから値を設定できます。
-
[データ ソースの追加] をクリックしてデータ ソースを追加します。
TIBCO Data Science - Team Studio で Spark クラスタを追加するには、以下の手順を実行します。