Spark ジョブのセットアップ

例のこの部分では、onExecution() という 1 つの関数のみをオーバーライドする必要があります。

この関数には、Spark ジョブに必要なコードがすべて含まれています。この関数は次の 5 つのパラメータを受け取ります。

  • sparkContext - ジョブの送信時に作成される Spark コンテキスト。
  • appConf - (オペレーター自体のパラメーターではなく)システム関連のパラメーターを含むマップ。これには、すべての Spark パラメーターとワークフロー レベルの変数が含まれます。
  • input - オペレーターへの入力として定義された IOBase オブジェクト。この例では、このオペレーターは入力を受け取らないため、これは IONone に設定されます。
  • params - GUI ノードから渡される、選択されたオペレーター パラメータ。
  • listener - にメッセージを送信するためのリスナー オブジェクト。TIBCO Data Science - Team StudioSpark ジョブ中の GUI。これを使用して、エラー メッセージを投稿したり、ステータス レポートを提供したりできます。TIBCO Data Science - Team Studio コンソール。

オペレーターは表形式の HDFS ファイルを返すため、出力タイプを HdfsTabularDataset に設定します。

    手順
  1. 次のように、onExecution() メソッドのスケルトンを作成します。
    override def onExecution(
                    sparkContext: SparkContext,
                    appConf: mutable.Map[String, String],
                    input: IONone,
                    params: OperatorParameters,
                    listener: OperatorListener): HdfsTabularDataset = {
    }

    この Spark ジョブで次の操作を実行します。

    1. メモリ内にデータの小さなリストを作成します。
    2. カスタム オペレーター フレームワークがそれを HdfsTabularDataset としてエクスポートできるように、定義した出力スキーマを使用して小さなリストを DataFrame に変換します。

次に行うアクションデータセットを作成します