Spark の自動調整
Spark パラメーターの調整は混乱を招く可能性があります。TIBCO Data Science - Team Studio Spark ジョブのパフォーマンスを向上させるための自動最適化が含まれています。
クラスターのサイズ、キュー内の利用可能なリソース、入力データのサイズ、オペレーターについての既知の情報に基づいて、TIBCO Data Science - Team Studio 実行時に Spark パラメーターを動的に割り当てることができます。Spark 自動チューニングは現在、次のオペレーターで利用できます。
- アグリゲーション
- アルパイン フォレスト 分類
- アルパイン フォレスト 回帰
- ARIMA 時系列
- アソシエーション ルール
- バッチ集計
- 分類しきい値メトリック
- 折りたたみ
- カラム フィルター
- 相関関係
- 相関フィルター
- DISTINCT
- ファジー ジョイン
- 勾配ブースティング分類
- 勾配ブースティング回帰
- ジョイン
- K 平均法
- LDA トレーナー
- LDA 予測器
- N-Gram 辞書ビルダー
- ナイーブ ベイズ
- ニューラル ネットワーク
- 正規化
- Null 値の置換
- 数値からテキストへ
- ピボット
- 外れ値 置換
- 複数カラムでの並べ替え
- 線形回帰
- ロジスティック回帰
- リ・サンプリング
- 行フィルター
- 集合演算
- 安定性の選択
- サマリー統計
- テキスト抽出ツール
- テキストフィーチャライザー
- トランスポーズ
- アンピボット
- 変数
- ウィンドウ関数 - 集計
- ウィンドウ関数 - ラグ/リード
- ウィンドウ関数 - ランク
Spark 自動チューニングを有効にするために何もする必要はありません。これらのオペレーターはデフォルトで 自動最適化 が適用されます。各 Spark 設定の詳細構成を編集することで、より高度な制御を適用できます。
TIBCO Data Science - Team Studio は、次の Spark パラメーターを設定します。
spark.executor.memoryspark.driver.memoryspark.executor.coresspark.default.Parallelismとspark.sql.shuffle.partitions
さらに、TIBCO Data Science - Team Studio は、クラスターで動的割り当てが有効かどうかを判断し、有効になっている場合はそれを使用して最大数のエクゼキューターを選択することができます (spark.dynamic.allocation.max.executors および spark.dynamic.allocation.enabled)。クラスターで動的割り当てが有効になっていない場合は、TIBCO Data Science - Team Studio はクラスターサイズ、入力データ、および現在のオペレーターに基づいて spark.executor.instances の値を設定します。
設定をオーバーライドするには、[自動最適化] を [いいえ] に設定し、詳細設定ダイアログで提供される設定を編集するか、独自のキー・バリュー ペアを追加します。 TIBCO Data Science - Team Studio は、設定を指定する前に、常にユーザーによって提供された設定を使用します。