詳細設定ダイアログ

オペレーターに対して Spark が有効になっている場合、Spark パラメーターに自動構成を適用して、オペレーターを実行するためのデフォルト値を設定できます。ただし、これらのパラメーターは直接編集できます。

これらのパラメーターをオペレーター パラメータ ダイアログで直接編集するには、[詳細設定の自動最適化][いいえ] を選択し、[設定の編集] をクリックします。表示される [詳細設定] ダイアログで希望の構成を設定します。

Spark オペレーターの [詳細設定] ダイアログ

ノート: 使用可能なオプションはオペレーターの種類によって決まります。次の表は、Spark を有効にできるすべてのオペレーターに適用される設定を示しています。追加の設定については、特定のオペレーターのヘルプを参照してください。

  • [オーバーライド?] カラムのチェックボックスをオンにすると、対応する設定の値を指定できます。これは、クラスターまたはワークフロー変数によって設定されたデフォルト値よりも優先されます。代替値を指定しない場合は、デフォルト値が使用されます。
  • [パラメーターの追加] をクリックすると、カスタム Spark パラメーターを指定できます。このオプションを使用すると、Spark ジョブをより詳細に制御および調整できます。詳細については、「Spark の自動調整」を参照してください。

設定 説明
動的割り当ての無効化

アイドル状態の CPU コアまたは実行メモリを他のアプリケーションに解放しないようにするには、両方のチェックボックスをオンにします。

動的割り当てにより、Spark はアプリケーションの実行中に必要に応じてエグゼキューターの数を増減できます。クラスター上で動的割り当てを構成できる場合は、おそらくそうすることが最もパフォーマンスが高くなります。

デフォルトでは、動的割り当ては無効になっています。TIBCO Data Science - Team Studio は、以下の条件が true である場合にのみ、動的割り当てを使用できます。

  • これは alpine.conf で有効になります。
  • エグゼキューターの数が設定されていません。
  • クラスターは動的割り当て用に正しく構成されています。
エグゼキューターの数 このジョブ (spark.executor.instances) を実行する Spark エグゼキューターの数を指定します。
実行プログラムのメモリ (MB) Spark エグゼキューターのメモリをメガバイト単位で指定します。

この値は、データのサイズ、クラスター上のリソース、および YARN コンテナーによって異なります。TIBCO Data Science - Team Studio では、この値を YARN コンテナのサイズよりも大きく設定することはできません。alpine.conflimit.spark.executor.memory 値を false に設定することで、この動作をオーバーライドできます。

ドライバー メモリ (MB) Spark ドライバーのメモリをメガバイト単位で指定します。

アルパイン フォレスト や サマリー統計などの一部のオペレーターは、多くの情報をドライバーに戻すため、これらのオペレーターはより多くのドライバー メモリを割り当てます。

この値は、データのサイズ、クラスターおよび YARN コンテナー上のリソース、およびアルゴリズムによって異なります。TIBCO Data Science - Team Studio では、この値を YARN コンテナのサイズよりも大きく設定することはできません。alpine.conflimit.spark.executor.memory 値を false に設定することで、この動作をオーバーライドできます。

エグゼキューター コアの数 Spark ジョブ (spark.executor.cores) の各エグゼキューターで使用するエグゼキューター コアの数を指定します。

この値が明示的に設定されている場合、ワーカーに十分なコアとメモリがある場合、同じアプリケーションから複数のエグゼキューターを同じワーカー上で起動できます。それ以外の場合、各エグゼキューターはデフォルトでワーカー上で使用可能なすべてのコアを取得します。この場合、単一のスケジュール反復中に各ワーカー上でアプリケーションごとに 1 つのエグゼキューターのみを起動できます。詳細については、Spark のドキュメントを参照してください。

追加情報

使用可能なプロパティの詳細については、Spark ドキュメントを参照してください。