HDFS ファイルのグループ選択

TIBCO Data Science - Team Studio Hadoop ユーザーは、Hadoop ファイル オペレーターから、同様の構造のファイルを複数選択できます。

この機能を使用して必要なファイルをすべて含めるには、ワークフローに Hadoop データ ソースを追加し、ワイルドカード文字を使用して Hadoop ファイル名 テキストを手動で変更します。

Hadoop ファイル構造の構成は、このリストのアルファベット順の最初のファイルに基づいており、他のすべてのファイルに適用されます。後続のオペレーターは、これらのファイルを単一の統合された入力として扱います。

たとえば、/user/tsds/ HDFS ディレクトリから「13」で始まるすべての .csv ファイルを選択するには、Hadoop ファイル名/user/tsds/13*.csv と設定します。

Hadoop ファイル

ワイルドカードを使用して複数のディレクトリを指定することもできます。たとえば、/user/*/13*.csv です。

複数のディレクトリを指定できるようにするには、次の要件を満たす必要があります。

  • TIBCO Data Science - Team Studio OS ユーザーには、/user/*/* hadoop ファイル パス内の各ファイルに対する読み取り権限があります。
  • 各データ ノードはネットワークにハートビートを送信している必要があります。
  • 各データ ノードは、TIBCO Data Science - Team Studio サーバーからアクセス可能となっています。
  • 選択したファイルは同じ Hadoop ファイル構造を持っています。

ワイルドカード パターン

ファイル名パターンは、通常の文字と次のワイルドカード文字のいずれかで構成できます。

文字や模様 一致
? 任意の 1 文字と一致します。
* 0 個以上の文字と一致します。
[abc] 文字セット {a,b,c} の単一の文字と一致します。
[a-b] 文字範囲 {a...b} 内の単一の文字と一致します。文字 a は辞書編集的に文字 b 以下でなければならないことに注意してください。
[^a] 文字セットまたは範囲 {a} 以外の単一の文字と一致します。 ^ 文字は左括弧のすぐ右側になければならないことに注意してください。
\c 文字 c の特別な意味を削除 (エスケープ) します。
{ab,cd} 文字列セット {ab, cd} の文字列と一致します。
{ab,c{de,fh}} 文字列セット {ab, cde, cfh} の文字列と一致します。