Spark ジョブの作成
このタスクでは、Spark ジョブのロジックを実装します。
ここがオペレーターの実際のアルゴリズムになります。このチュートリアルでは、Spark ジョブはメモリ上に小さな行のリストを作成し、それらを Spark SQL DataFrame に変換し、SparkRuntimeUtils クラスを使ってそのDataFrame を保存し、生成したDataFrame に対応する HDFSTabularDataset オブジェクトを返します。
ノート:このオペレーターは、TIBCO Data Science - Team Studio カスタム オペレーター SDK の使用方法を説明するものです。この例でデータ セットの作成に使用されるプロセスは、すべてのデータがメモリ内に作成されてから分散されるため、スケーラブルではありません。「number of things」パラメーターの上限を 100 にすると、例で作成されたデータが大きすぎてドライバーのメモリに収まらないことがなくなります。データセット生成のより実用的な例については、SparkRandomDatasetGenerator の例を参照してください。
始める前にソース オペレーターをビルドします。
- 手順
- 次のコードを追加します。
class SimpleDatasetGeneratorJob extends SparkIOTypedPluginJob[IONone, HdfsTabularDataset] { }
次に行うアクションSpark ジョブを設定します。
サブ・トピック