Team Studio 固有の Spark 値

TIBCO Data Science - Team Studio は、次の設定を使用して Spark 設定の大部分を決定します (オペレーター レベルで手動で設定されていない場合)。

名前 デフォルト値 ノート
spark.driver.memory 1024 最小ドライバーメモリ。大規模なデータセットや大規模なクラスターの場合は、この値を増やします。
spark.show.conf true  
min.spark.executor.memory 1024  
percent.resources.available.to.alpine.job 1.0 = 100% 特定のジョブに割り当てる利用可能なリソースの割合。TIBCO Data Science - Team Studio ユーザーが多い場合や、ユーザーが非常に大きなジョブを起動することが心配な場合は、この値を減らすことを検討してください。
limit.spark.driver.memory.based.on.capacity true YARN コンテナーのメモリ容量に基づいて Spark ドライバーのメモリを制限します。メモリ設定が高すぎる場合は、YARN コンテナに収まる最大のドライバ メモリが使用されます。

YARN コンテナーは、Spark ドライバーのメモリ パラメーターによって設定されたメモリとオーバーヘッドを収容できる十分な大きさである必要があります。

limit.spark.executor.memory.based.on.capacity true YARN コンテナーのメモリ容量に基づいて Spark エグゼキューターのメモリを制限します。要求された spark.executor.memory が大きすぎる場合は、spark.executor.memory をその容量に設定します。この設定により、要求されたエグゼキューター メモリとドライバ メモリの合計が、クラスターで利用可能なメモリの合計に対して大きすぎないことも保証されます。
spark.max.executors.per.machine 5  
alpine.small.cluster.threshold.g 6 クラスター上の合計リソースが 6 GB 未満の場合、最小メモリ設定が使用されると想定します。