Spark の詳細設定テーブル
この表は、Spark の詳細設定オプションを提供するトピックで使用します。
| 設定 | 説明 |
|---|---|
| 動的割り当ての無効化 |
アイドル状態の CPU コアまたは実行メモリを他のアプリケーションに解放しないようにするには、両方のチェックボックスをオンにします。 動的割り当てにより、Spark はアプリケーションの実行中に必要に応じてエグゼキューターの数を増減できます。クラスター上で動的割り当てを構成できる場合は、おそらくそうすることが最もパフォーマンスが高くなります。 デフォルトでは、動的割り当ては無効になっています。TIBCO Data Science - Team Studio は、次の条件が当てはまる場合にのみ、動的割り当てを使用できます。
|
| エグゼキューターの数 | このジョブ (spark.executor.instances) を実行する Spark エグゼキューターの数を指定します 。 |
| 実行プログラムのメモリ (MB) | Spark エグゼキューターのメモリをメガバイト単位で指定します。 この値は、データのサイズ、クラスター上のリソース、および YARN コンテナーによって異なります。TIBCO Data Science - Team Studio では、この値をYARN コンテナのサイズより大きく設定することはできません。alpine.conf の |
| ドライバー メモリ (MB) | Spark ドライバーのメモリをメガバイト単位で指定します。 アルパイン フォレスト や サマリー統計などの一部のオペレーターは、多くの情報をドライバーに戻すため、これらのオペレーターはより多くのドライバー メモリを割り当てます。 この値は、データのサイズ、クラスターおよび YARN コンテナー上のリソース、およびアルゴリズムによって異なります。TIBCO Data Science - Team Studio では、この値を YARN コンテナのサイズよりも大きく設定することはできません。alpine.conf の |
| エグゼキューター コアの数 | Spark ジョブ (spark.executor.cores) の各エグゼキューターで使用するエグゼキューター コアの数を指定します 。 この値が明示的に設定されている場合、ワーカーに十分なコアとメモリがある場合、同じアプリケーションから複数のエグゼキューターを同じワーカー上で起動できます。それ以外の場合、各エグゼキューターはデフォルトでワーカー上で使用可能なすべてのコアを取得します。この場合、単一のスケジュール反復中に各ワーカー上でアプリケーションごとに 1 つのエグゼキューターのみを起動できます。詳細については、Spark のドキュメントを参照してください。 |