PySpark の初期化
Jupyter Notebooks for Team Studio で PySpark を初期化して使用できます。
TIBCO Data Science - Team Studio の Notebooks 環境で開始します。
始める前にこの前提条件の更新は、
[クラスター用に Pyspark を初期化] 関数を使用して TIBCO Data Science – Team Studio のバージョン 6.5.0 より前にノートブックを作成した場合にのみ適用されます。これは、システムの Spark アップグレードに対応するために必要です。をクリックして、PySpark コンテキストを再生成します。
- 以前に生成したコードを次のように変更します。
os.environ['PYSPARK_SUBMIT_ARGS']= "--masteryarn-client --num-executors 1 --executor-memory 1g --packages com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.11:3.0.1 pyspark-shell"
Hadoop クラスターにアクセスできない場合は、PySpark ジョブをローカル モードで実行できます。PySpark をローカル モードで実行する前に、次の構成を設定します。
PYSPARK_SUBMIT_ARGS環境変数を次のように設定します。os.environ['PYSPARK_SUBMIT_ARGS']= 'master local pyspark-shell'
YARN_CONF_DIR環境変数は次のようになります。os.environ['YARN_CONF_DIR'] = ''
- 手順
- 新しいノートブックを作成します。
- をクリックします。
- Spark の実行に使用する既存のデータ ソースを選択します。
ノート: Spark は、同時に 2 つのクラスターに接続するように構成できません。ノートブックで PySpark 用に 1 つのクラスターのみが初期化されていることを確認してください。初期化されていないと、エラーが発生します。