Spark ジョブのセットアップ
例のこの部分では、onExecution() という 1 つの関数のみをオーバーライドする必要があります。
この関数には、Spark ジョブに必要なコードがすべて含まれています。この関数は次の 5 つのパラメータを受け取ります。
sparkContext- ジョブの送信時に作成される Spark コンテキスト。appConf- (オペレーター自体のパラメーターではなく)システム関連のパラメーターを含むマップ。これには、すべての Spark パラメーターとワークフロー レベルの変数が含まれます。input- オペレーターへの入力として定義された IOBase オブジェクト。この例では、このオペレーターは入力を受け取らないため、これはIONoneに設定されます。params- GUI ノードから渡される、選択されたオペレーター パラメータ。listener- にメッセージを送信するためのリスナー オブジェクト。TIBCO Data Science - Team StudioSpark ジョブ中の GUI。これを使用して、エラー メッセージを投稿したり、ステータス レポートを提供したりできます。TIBCO Data Science - Team Studio コンソール。
オペレーターは表形式の HDFS ファイルを返すため、出力タイプを HdfsTabularDataset に設定します。
- 手順
- 次のように、
onExecution()メソッドのスケルトンを作成します。override def onExecution( sparkContext: SparkContext, appConf: mutable.Map[String, String], input: IONone, params: OperatorParameters, listener: OperatorListener): HdfsTabularDataset = { }この Spark ジョブで次の操作を実行します。
- メモリ内にデータの小さなリストを作成します。
- カスタム オペレーター フレームワークがそれを
HdfsTabularDatasetとしてエクスポートできるように、定義した出力スキーマを使用して小さなリストを DataFrame に変換します。
次に行うアクションデータセットを作成します。