Spark の詳細設定テーブル

この表は、Spark の詳細設定オプションを提供するトピックで使用します。

設定 説明
動的割り当ての無効化

アイドル状態の CPU コアまたは実行メモリを他のアプリケーションに解放しないようにするには、両方のチェックボックスをオンにします。

動的割り当てにより、Spark はアプリケーションの実行中に必要に応じてエグゼキューターの数を増減できます。クラスター上で動的割り当てを構成できる場合は、おそらくそうすることが最もパフォーマンスが高くなります。

デフォルトでは、動的割り当ては無効になっています。TIBCO Data Science - Team Studio は、次の条件が当てはまる場合にのみ、動的割り当てを使用できます。

  • これは alpine.conf で有効になります。
  • 実行者の数が設定されていません。
  • クラスターは動的割り当て用に正しく構成されています。
エグゼキューターの数 このジョブ (spark.executor.instances) を実行する Spark エグゼキューターの数を指定します 。
実行プログラムのメモリ (MB) Spark エグゼキューターのメモリをメガバイト単位で指定します。

この値は、データのサイズ、クラスター上のリソース、および YARN コンテナーによって異なります。TIBCO Data Science - Team Studio では、この値をYARN コンテナのサイズより大きく設定することはできません。alpine.conflimit.spark.executor.memory 値を false に設定することで、この動作をオーバーライドします。

ドライバー メモリ (MB) Spark ドライバーのメモリをメガバイト単位で指定します。

アルパイン フォレスト や サマリー統計などの一部のオペレーターは、多くの情報をドライバーに戻すため、これらのオペレーターはより多くのドライバー メモリを割り当てます。

この値は、データのサイズ、クラスターおよび YARN コンテナー上のリソース、およびアルゴリズムによって異なります。TIBCO Data Science - Team Studio では、この値を YARN コンテナのサイズよりも大きく設定することはできません。alpine.conflimit.spark.executor.memory 値を false に設定することで、この動作をオーバーライドできます。

エグゼキューター コアの数 Spark ジョブ (spark.executor.cores) の各エグゼキューターで使用するエグゼキューター コアの数を指定します 。

この値が明示的に設定されている場合、ワーカーに十分なコアとメモリがある場合、同じアプリケーションから複数のエグゼキューターを同じワーカー上で起動できます。それ以外の場合、各エグゼキューターはデフォルトでワーカー上で使用可能なすべてのコアを取得します。この場合、単一のスケジュール反復中に各ワーカー上でアプリケーションごとに 1 つのエグゼキューターのみを起動できます。詳細については、Spark のドキュメントを参照してください。