詳細設定ダイアログ
オペレーターに対して Spark が有効になっている場合、Spark パラメーターに自動構成を適用して、オペレーターを実行するためのデフォルト値を設定できます。ただし、これらのパラメーターは直接編集できます。
これらのパラメーターをオペレーター パラメータ ダイアログで直接編集するには、[詳細設定の自動最適化] で [いいえ] を選択し、[設定の編集] をクリックします。表示される [詳細設定] ダイアログで希望の構成を設定します。
- [オーバーライド?] カラムのチェックボックスをオンにすると、対応する設定の値を指定できます。これは、クラスターまたはワークフロー変数によって設定されたデフォルト値よりも優先されます。代替値を指定しない場合は、デフォルト値が使用されます。
- [パラメーターの追加] をクリックすると、カスタム Spark パラメーターを指定できます。このオプションを使用すると、Spark ジョブをより詳細に制御および調整できます。詳細については、「Spark の自動調整」を参照してください。
| 設定 | 説明 |
|---|---|
| 動的割り当ての無効化 |
アイドル状態の CPU コアまたは実行メモリを他のアプリケーションに解放しないようにするには、両方のチェックボックスをオンにします。 動的割り当てにより、Spark はアプリケーションの実行中に必要に応じてエグゼキューターの数を増減できます。クラスター上で動的割り当てを構成できる場合は、おそらくそうすることが最もパフォーマンスが高くなります。 デフォルトでは、動的割り当ては無効になっています。TIBCO Data Science - Team Studio は、以下の条件が true である場合にのみ、動的割り当てを使用できます。
|
| エグゼキューターの数 | このジョブ (spark.executor.instances) を実行する Spark エグゼキューターの数を指定します。 |
| 実行プログラムのメモリ (MB) | Spark エグゼキューターのメモリをメガバイト単位で指定します。 この値は、データのサイズ、クラスター上のリソース、および YARN コンテナーによって異なります。TIBCO Data Science - Team Studio では、この値を YARN コンテナのサイズよりも大きく設定することはできません。alpine.conf の |
| ドライバー メモリ (MB) | Spark ドライバーのメモリをメガバイト単位で指定します。 アルパイン フォレスト や サマリー統計などの一部のオペレーターは、多くの情報をドライバーに戻すため、これらのオペレーターはより多くのドライバー メモリを割り当てます。 この値は、データのサイズ、クラスターおよび YARN コンテナー上のリソース、およびアルゴリズムによって異なります。TIBCO Data Science - Team Studio では、この値を YARN コンテナのサイズよりも大きく設定することはできません。alpine.conf の |
| エグゼキューター コアの数 | Spark ジョブ (spark.executor.cores) の各エグゼキューターで使用するエグゼキューター コアの数を指定します。 この値が明示的に設定されている場合、ワーカーに十分なコアとメモリがある場合、同じアプリケーションから複数のエグゼキューターを同じワーカー上で起動できます。それ以外の場合、各エグゼキューターはデフォルトでワーカー上で使用可能なすべてのコアを取得します。この場合、単一のスケジュール反復中に各ワーカー上でアプリケーションごとに 1 つのエグゼキューターのみを起動できます。詳細については、Spark のドキュメントを参照してください。 |