TIBCO Data Science - Team Studio の Spark クラスターへの接続

Spark クラスターは、低遅延の反復ジョブとインタープリターからの対話型使用のために設計された、MapReduce に似たクラスター コンピューティング フレームワークです。Scala、Java、Python、R のクリーンな言語統合 API と、一般的な実行グラフをサポートする最適化されたエンジンを提供します。さらに、SQL および構造化データを処理するための Spark SQL、pandas ワークロード用の Spark 上の Pandas API、機械学習用の MLlib、グラフ処理用の GraphX、増分計算とストリーム処理用の Structured Streaming など、幅広い高度なツールがサポートされています。

Spark クラスターは、タスクを完了するために連携して動作するドライバー プログラム、クラスター マネージャー、ワーカー ノードの組み合わせです。SparkContext を使用して、クラスター全体のプロセスを調整できます。SparkContext は、アプリケーション間でリソースを分散するさまざまなクラスター マネージャーに接続できます。接続すると、Spark はクラスター内のノード上でエグゼキューターを取得します。エグゼキューターは、アプリケーションの計算を実行し、データを保存するプロセスです。次に、エグゼキューターはアプリケーション コード (SparkContext に提供される JAR または Python ファイルで指定)を受け取り、SparkContext は実行のためにタスクをエグゼキューターに送信します。

次の図は、Spark クラスターを視覚化するのに役立ちます。

スパーククラスター

TIBCO Data Science - Team Studio 7.1.0 は、Apache Spark 3.2 のワークフローでのみ使用可能な Spark クラスター バージョン 3.3 をサポートしています。これらのワークフローは、データ処理に Spark SQL を使用する最新のオペレーターで構成されています。

ファイル ストレージ システムを使用すると、すべてのデータ セットを 1 つのサーバーに保存するのではなく、無限の数のサーバーに大規模なデータ セットを保存できます。ファイル ストレージは、Spark クラスター (ローカル) に関連付けられたファイル システム、または Spark クラスターの外部 (リモート)のいずれかになります。Apache Spark 3.2 以降のクラスターには専用のファイル ストレージ システムがありません。いずれの場合も、ファイル ストレージ システムとして使用できるのは TIBCO® Data Virtualization のみです。

ファイルやデータが Spark クラスターの外部に保存されている場合、Spark が分析処理を実行できるように、データはSpark クラスターにコピーされます。一方、ファイルやデータが TIBCO® DV に接続されたデータベースに格納されている場合、Spark クラスターが分析処理を実行できるように、データはすでに利用可能になっている。この場合、データのコピー、転送、移動がないため、パフォーマンスが最適化されます。

Spark クラスター マネージャー

TIBCO Data Science - Team Studio は、異なる Spark クラスター マネージャーを使用して複数の異なる Spark システムに接続できます。TIBCO Data Science - Team Studio7.1.0 バージョンでは、以下の Spark クラスター マネージャーがサポートされています

スタンドアロン クラスター マネージャー

Spark スタンドアロン クラスター マネージャーを使用する場合は、次の 3 つの構成が可能です。

  1. TIBCO Data Science - Team Studio、Spark スタンドアロン クラスター、およびTIBCO® DV が同じサーバ上で動作している場合。これは最もシンプルな構成ですが、リソースを共有するため、ビッグデータ環境では推奨されません。

  2. TIBCO Data Science - Team Studio と Spark スタンドアロン クラスターは同じサーバー上にあり、TIBCO® DV が別のサーバー上にある場合。この場合、ネットワーク ファイル システムは 2 つのサーバー間で共有され、同じマウント ポイントにマウントされます。

  3. TIBCO Data Science - Team Studio、Spark スタンドアロン クラスター、および TIBCO® DV が異なるサーバー上にある場合。この場合、TIBCO® DV と Spark クラスター サーバーに同じネットワーク ファイル システムをマウントする必要があります。

YARN クラスター マネージャー

YARN クラスター マネージャーは、Cloudera CDH / CDP および Amazon EMR によって使用されます。これらは、関連するファイル システム (Cloudera の場合は HDFS、EMR の場合は S3 )を持つ既存のクラスターです。これらのファイル システムは共有ファイル システムであり、TIBCO® DV はこのファイル システムに接続されています。