Spark の自動調整

Spark パラメーターの調整は混乱を招く可能性があります。TIBCO Data Science - Team Studio Spark ジョブのパフォーマンスを向上させるための自動最適化が含まれています。

クラスターのサイズ、キュー内の利用可能なリソース、入力データのサイズ、オペレーターについての既知の情報に基づいて、TIBCO Data Science - Team Studio 実行時に Spark パラメーターを動的に割り当てることができます。Spark 自動チューニングは現在、次のオペレーターで利用できます。

  • アグリゲーション
  • アルパイン フォレスト 分類
  • アルパイン フォレスト 回帰
  • ARIMA 時系列
  • アソシエーション ルール
  • バッチ集計
  • 分類しきい値メトリック
  • 折りたたみ
  • カラム フィルター
  • 相関関係
  • 相関フィルター
  • DISTINCT
  • ファジー ジョイン
  • 勾配ブースティング分類
  • 勾配ブースティング回帰
  • ジョイン
  • K 平均法
  • LDA トレーナー
  • LDA 予測器
  • N-Gram 辞書ビルダー
  • ナイーブ ベイズ
  • ニューラル ネットワーク
  • 正規化
  • Null 値の置換
  • 数値からテキストへ
  • ピボット
  • 外れ値 置換
  • 複数カラムでの並べ替え
  • 線形回帰
  • ロジスティック回帰
  • リ・サンプリング
  • 行フィルター
  • 集合演算
  • 安定性の選択
  • サマリー統計
  • テキスト抽出ツール
  • テキストフィーチャライザー
  • トランスポーズ
  • アンピボット
  • 変数
  • ウィンドウ関数 - 集計
  • ウィンドウ関数 - ラグ/リード
  • ウィンドウ関数 - ランク

Spark 自動チューニングを有効にするために何もする必要はありません。これらのオペレーターはデフォルトで 自動最適化 が適用されます。各 Spark 設定の詳細構成を編集することで、より高度な制御を適用できます。

TIBCO Data Science - Team Studio は、次の Spark パラメーターを設定します。

  • spark.executor.memory
  • spark.driver.memory
  • spark.executor.cores
  • spark.default.Parallelismspark.sql.shuffle.partitions

さらに、TIBCO Data Science - Team Studio は、クラスターで動的割り当てが有効かどうかを判断し、有効になっている場合はそれを使用して最大数のエクゼキューターを選択することができます (spark.dynamic.allocation.max.executors および spark.dynamic.allocation.enabled)。クラスターで動的割り当てが有効になっていない場合は、TIBCO Data Science - Team Studio はクラスターサイズ、入力データ、および現在のオペレーターに基づいて spark.executor.instances の値を設定します。

設定をオーバーライドするには、[自動最適化][いいえ] に設定し、詳細設定ダイアログで提供される設定を編集するか、独自のキー・バリュー ペアを追加します。 TIBCO Data Science - Team Studio は、設定を指定する前に、常にユーザーによって提供された設定を使用します。