ソース オペレーターの構築

すべてのオペレーターが「データを入力し、データを出力する」パラダイムに該当するわけではありません。このチュートリアルでは、ソース オペレーター、つまりデータ ソースを作成し、さらなる変換やモデリングのために他のオペレーターに接続できるソース オペレーターを構築する方法を説明します。

データ ソース入力は必要ありません。この命令によりデータ ソースが作成されます。ただし、最初にフローを設定するには、Hadoop データ セットを追加する必要があります。

この例では、単純な HDFS データ セットを生成します。

Input: An integer n
  
Output:
  
Thing, 1
Thing, 2
Thing, 3
Thing, 4
Thing, 5
...
Thing, n
  
Where n-1 is the number of rows in the data set.

コードの完成したコピーを確認するには、SimpleDatasetGenerator.scala を参照してください。 (環境のセットアップの一部として作成されます。)

始める前にこのチュートリアルを正常に完了するには、前の 2 つのチュートリアル、「利用バージョンへのカスタム サンプル オペレーターのインストール」と 「 Scala での最初のカスタム オペレーターの構築」を正常に完了している必要があります。または、十分な Spark と Scala の知識がある場合は、参考のために前のチュートリアルに沿って進むこともできます。
次に行うアクション環境をセットアップします