ソース オペレーターの構築
すべてのオペレーターが「データを入力し、データを出力する」パラダイムに該当するわけではありません。このチュートリアルでは、ソース オペレーター、つまりデータ ソースを作成し、さらなる変換やモデリングのために他のオペレーターに接続できるソース オペレーターを構築する方法を説明します。
データ ソース入力は必要ありません。この命令によりデータ ソースが作成されます。ただし、最初にフローを設定するには、Hadoop データ セットを追加する必要があります。
この例では、単純な HDFS データ セットを生成します。
Input: An integer n Output: Thing, 1 Thing, 2 Thing, 3 Thing, 4 Thing, 5 ... Thing, n Where n-1 is the number of rows in the data set.
コードの完成したコピーを確認するには、SimpleDatasetGenerator.scala を参照してください。 (環境のセットアップの一部として作成されます。)
始める前にこのチュートリアルを正常に完了するには、前の 2 つのチュートリアル、「利用バージョンへのカスタム サンプル オペレーターのインストール」と 「 Scala での最初のカスタム オペレーターの構築」を正常に完了している必要があります。または、十分な Spark と Scala の知識がある場合は、参考のために前のチュートリアルに沿って進むこともできます。
次に行うアクション環境をセットアップします。
サブ・トピック