Spark Node Fusion
Spark Node Fusion を使用すると、単一の Spark ジョブ (「Spark コンテキスト」とも呼ばれます) に複数のオペレーターを含めることができます。これにより、新しいジョブが再作成されず、各分析ステップで結果が HDFS に保存されるため、ジョブの実行が高速化されます。
ワークフローのサイズやワークフローに含まれるオペレーターの数に関係なく、実行時のパフォーマンスは非常に重要です。既存のワークフローでノード フュージョンの使用を指定し、以前の設定に戻すことは簡単に行うことができます。これを行うには、[Spark を使用する] プロパティを使用します。詳細については、「Spark に変換/非 Spark に戻す」を参照してください。
Spark オペレーターを使用したワークフローがジョブ スケジューラーを通じて実行される場合、結果はユーザーには表示されません。これを行うと、ジョブの実行が大幅に遅くなるからです。とにかく結果を表示したい場合は、ジョブを実行する前に [結果を保存する] を [true] に設定します。
次のオペレーターは、Spark Node Fusion を使用するように更新されています。TIBCO Data Science - Team Studio バージョン 6.4 のリリースに先立って、これらのオペレーターは通常、MapReduce または Pig 実行フレームワークを使用しています。