PySpark の初期化

Jupyter Notebooks for Team Studio で PySpark を初期化して使用できます。

TIBCO Data Science - Team Studio の Notebooks 環境で開始します。
始める前にこの前提条件の更新は、[クラスター用に Pyspark を初期化] 関数を使用して TIBCO Data Science – Team Studio のバージョン 6.5.0 より前にノートブックを作成した場合にのみ適用されます。これは、システムの Spark アップグレードに対応するために必要です。
  1. Data > Initialize Pyspark for Cluster をクリックして、PySpark コンテキストを再生成します。

  2. 以前に生成したコードを次のように変更します。
    os.environ['PYSPARK_SUBMIT_ARGS']=
    "--masteryarn-client --num-executors 1 --executor-memory 1g --packages com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.11:3.0.1
    pyspark-shell"

Hadoop クラスターにアクセスできない場合は、PySpark ジョブをローカル モードで実行できます。PySpark をローカル モードで実行する前に、次の構成を設定します。

  1. PYSPARK_SUBMIT_ARGS 環境変数を次のように設定します。
    os.environ['PYSPARK_SUBMIT_ARGS']= 'master local pyspark-shell'
  2. YARN_CONF_DIR 環境変数は次のようになります。
    os.environ['YARN_CONF_DIR'] = ''
    手順
  1. 新しいノートブックを作成します。
  2. Data > Initialize PySpark For Cluster をクリックします。

  3. Spark の実行に使用する既存のデータ ソースを選択します。

    ノート: Spark は、同時に 2 つのクラスターに接続するように構成できません。ノートブックで PySpark 用に 1 つのクラスターのみが初期化されていることを確認してください。初期化されていないと、エラーが発生します。