TIBCO Data Science - Team Studio 関連 HDFS 構成

TIBCO Data Science - Team Studio は、HDFS 内の複数の一時ディレクトリを使用します。これらのディレクトリとファイルは、EMR 5.35.x に接続されているときに、HDFS、YARN、および他のユーザーと一緒に作成されます。

一時ディレクトリは、ユーザー Chorus および基本レベルの他の関連ユーザーがアクセスできるようにする必要があります。指定されたユーザーは、対応するユーザーの個別のディレクトリのみを表示できます。それらのディレクトリは次のとおりです。

  • オペレーターの標準出力: @default_tmpdir/dsts_out/<user_name>/<workflow_name>/
  • TIBCO Data Science - Team Studio の一時出力: @default_tmpdir/dsts_runtime/<user_name>/<workflow_name>/
  • TIBCO Data Science - Team Studio のモデルの場所: @default_tmpdir/dsts_model/<user_name>/<workflow_name>/

次のように権限と所有権を設定または変更します。

  • /tmp ディレクトリは読み取りおよび書き込み可能である必要があります。
  • /tmp/hadoop-yarn ディレクトリは、Spark ジョブに対して読み取りおよび書き込み可能である必要があります。

アップグレード オプションは次のとおりです (1 つ選択してください)。

  • /tmp/dsts_* ディレクトリをフル・パーミッションに変更し、全員が読み書き実行できるようにします。
  • /tmp/dsts_* を削除し、アップグレードされた TIBCO Data Science - Team Studio アプリケーションに再作成させます。LDAP を使用している場合、再作成されたディレクトリはデフォルトの構造 /tmp/dsts_*/<LDAP_username>/workflowname/operator/ を持ち、このディレクトリ レベルのパーミッションは必要に応じて LDAP_username に制限することができます。
  • デフォルトでは、@default_tmpdir/tmp に設定されています。これは、ワークフロー変数を使用して個々のワークフローに対して、またはワークフロー エディターの設定を使用して新しく作成されたすべてのワークフローに対して変更することができます。

TIBCO Data Science - Team Studio では、ユーザーがワークフローを再実行すると、@default_tmpdir/dsts* ファイルが上書きされます。TIBCO Data Science - Team Studio ユーザーは、一時データのクリア を使用して選択した @default_tmpdir/dsts_out ファイルをクリアできます。このディレクトリは、TIBCO Data Science - Team Studio ユーザーが [Store Results = False] オプションを選択した情報の保存に使用されるため、Hadoop 管理者は HDFS から @default_tmpdir/dsts_runtime を安全に消去できます。

ノート:@default_tmpdir/dsts_model の取り扱いには注意してください。TIBCO Data Science - Team Studio ユーザーは、このディレクトリからモデルをエクスポートする必要があるかもしれません。