Spark 対応オペレーターの設定
Spark 設定を変更する最も簡単かつ迅速な方法は、オペレーター自身から変更することです。
- Spark パラメーターの自動構成を有効にすることができます。TIBCO Data Science - Team Studio オペレーターを実行するためのデフォルト値を選択します。
- [詳細設定の自動最適化] を [いいえ] に設定し、[設定の編集] をクリックして 詳細設定ダイアログ に設定を表示し編集することで、オペレーター パラメーター ダイアログでこれらのパラメーターを直接編集することができます。
オペレーターによっては、追加のパラメーターを使用できる場合があります。さらに、公式 Spark ドキュメントで説明されているパラメーターのいずれかを使用してパラメーターを追加できます。
使用例として、テキスト抽出器を使用して大量のファイルを解析していると想像してください。Spark ジョブが失敗し続けるか、非常に遅くなります。入力データに応じて、次のいずれかのアクションを実行して、これらの問題を修正できます。
- 解析する中サイズまたは小規模のファイル (40 MB 未満の数十万のファイル) が多数あり、ジョブが失敗する場合は、ドライバーのメモリとエグゼキューターの数を増やすことを試みる必要があります。
- 解析するファイルが大きく (90MB 以上)、Spark ジョブが失敗する場合は、より大きなファイルが 1 つのエグゼキューターで解析されるようにエグゼキューターのメモリを増やしてください。ドライバーのメモリも増やす必要があります。
データ ソースの構成
Spark 設定はデータ ソース自体で変更できます。これを行うには、Spark がインストールされている Hadoop クラスターにアクセスできる必要があります。
ヒントとコツ
Spark の最適化の詳細については、次のリソースを参照してください。