接続パラメーターの構成

新しいワークフローを実行するには、TIBCO® Data Virtualization と Spark クラスター間で共有ファイルシステムを用意する必要があります。次の共有ファイル システムが利用可能です。

  • Apache Spark スタンドアロン クラスターを使用する場合の NFS 共有ドライブ。

  • EMR クラスターを使用する場合の Amazon S3 バケット。

  • Cloudera クラスターを使用する場合の HDFS フォルダー。

システム管理者は、共有ボリューム上にモデルと出力用に別のディレクトリを作成する必要があります。モデル オペレーターからの中間結果は Models ディレクトリに保存され、オペレーターからの出力テーブルは Output ディレクトリに保存されます。

[接続パラメータの設定] ダイアログで、オペレーターの中間結果と出力を保存する次のパラメータを追加します。

パラメーター 説明
tds.datavirt.sharedDataVolumes このパラメータは、システム管理者がオペレーターからの出力テーブルを保存するディレクトリを指定します。複数の共有ボリュームを提供することもできます。詳細は、「TIBCO Data Science - Team Studio からの TIBCO Data Virtualization データへのアクセス」を参照ください。
tds.runtime.sharedTempVolume このパラメータは、システム管理者がモデル オペレーターからの中間結果を保存するディレクトリを指定します。

使用している場合は、

  • Amazon S3 バケットの場合、URL は次のようになります。 s3a://<directory_path>

  • NFS 共有ドライブの場合、URL は次のようになります。 file:// <directory_path>

  • HDFS 共有ドライブの場合、URL は次のようになります。 hdfs://<directory_path>

例:

tds.datavirt.sharedDataVolumesl = s3a://qat3/output2/

tds.runtime.sharedTempVolumel = s3a://qat3/models/

EMR を Spark クラスターとして使用している場合は、次のパラメーターを追加します。

パラメーター 説明
spark.yarn.populateHadoopClasspath = true このパラメーターは、EMR クラスターに YARN クラスパスを追加します。
spark.hadoop.fs.s3a.aws.credentials.provider = com.amazonaws.auth.InstanceProfileCredentialsProvider このパラメータにより認証が有効になります。
spark.yarn.stagingDir Amazon EMR 6.7 クラスタを使用している場合、管理者はこのパラメータでHadoop YARN データ ソースを構成する必要があります。このパラメータは、実行サブミッタが Spark ジョブをサブミットする際に使用するステージング ディレクトリのURL を指定します。
ノート: EMR クラスター上の有効な HDFS ディレクトリを入力し、データ ソースに設定された Hadoop ユーザーがこのディレクトリに対して読み取り、書き込み、および実行権限を持っていることを確認します。

例: spark.yarn.stagingDir=hdfs://<ip_address>/user/foobar/.sparkStaging

Apache Spark スタンドアロン クラスターを使用している場合は、次のパラメーターを追加します。

パラメーター 説明
tds.executions.sparkClusterVersion このパラメーターは、Spark クラスターのバージョンを指定します。

例: 3.2.1

spark.dynamicAllocation.disabled デフォルトでは、プラットフォームは動的割り当てを有効にします。

動的割り当てを無効にする場合は、このパラメータを [true] に設定します。