カラムの構成: テキスト ファイル

カラムの構成 ダイアログでは、Hadoop ファイルのプロパティ ダイアログで指定されたファイルの種類に応じてオプションが変更されます。このトピックで説明するオプションは、テキスト ファイルで使用できます。

カラム構成 説明
縦/横ファイル ビュー テキスト ファイルに多数のカラムが含まれている場合は、右上隅にある スイッチ アイコン (スイッチアイコン) をクリックして、カラムの表示を垂直方向と水平方向の間で変更できます。300 カラムを超えるファイルの場合は、垂直ビューのみが使用可能です。
エスケープ文字と引用文字 ファイル内で使用されるエスケープ文字と引用符を指定します。
区切り

リストから区切り文字を選択します。

  • カンマ
  • タブ
  • セミコロン
  • スペース
  • Ctrl + A
  • その他 ([その他] を選択すると、区切り文字として外字が使用されます。)

ヘッダー

TIBCO Data Science - Team Studio が、[カラムの設定] ダイアログを開くと、TIBCO Data Science - Team Studio は、ヒューリスティックを使用して、データの最初の行がヘッダー行であるかどうかを判断し、この判断に基づいてコントロール [最初の行にヘッダーが含まれる] を選択、またはクリアします。このプロパティは手動で選択またはクリアできます。

  • TIBCO Data Science - Team Studio が、最初の行にヘッダー情報が含まれると判断した場合、行の内容がデフォルトのカラム名として使用され、[最初の行にヘッダーが含まれる] 設定が選択されます。
  • ソース データにヘッダー行がない場合は、[最初の行にヘッダーが含まれる] をオフにします。
  • ファイルにヘッダーが含まれていないが、ヘッダー情報が別のファイルで利用可能な場合は、ヘッダー ファイルを設定できます。 [ファイルからヘッダーをロード] をクリックし、Hadoop ファイル セレクターからファイルを参照して選択します。
データ カラム

TIBCO Data Science - Team Studio は、最初の数行のサンプルを使用して、正しいカラム名とデータ タイプを推測しようとします。ダイアログが表示されると、各カラムの前に推論されたデータ タイプが表示されます。

新しいカラム名とデータ タイプを指定することで、これらの設定を変更できます。

ドロップダウン リスト ボックスには、標準データ タイプのリストが表示されます。

  • chararray
  • int
  • long
  • float
  • double
  • bytearray
  • sparse
  • datetime
  • datetimeyyyy-MM-dd'T'HH:mm:ss
  • datetimeyyyyMMdd HH:mm
  • datetimeyyyy-MM-dd
  • datetimeHH:mm:ss
  • datetimeyyyy-MM-dd'T'HH:mm:ss.SSSZ
  • datetimeMM-dd-yyyy
  • datetimeMM/dd/yyyy
  • datetimedd-MM-yyyy
  • datetimeyyyy-MM-dd HH:mm:ss
  • datetimeyyyy-MM-dd'T'HH:mm:ss.SSSZZ

複数のカラムのデータ タイプを変更できます。ビューを水平形式に設定し、目的のカラムのチェックボックスをオンにして、[選択項目を設定] をクリックします。

[選択した項目を設定]ドロップダウン リスト

カラムのリストは、フィルター フィールドを使用してフィルター処理することもできます。

ノート: datetime データ タイプの場合、ソース データが ISO datetime 形式を使用している場合は、柔軟性を維持するために基本的な datetime データを選択する必要があります。ISO は、datetime データ型のための国際的なデータ交換フォーマット・フレームワークを提供しており、すべての datetime 値を1970年からのミリ秒数に変換します。詳細は ISO DateTime Format を参照してください。詳細については、「ISO DateTime Format」を参照してください。

ソース データが ISO datetime 形式でない場合は、事前定義された形式のリストから、インポートされるデータ ファイルの特定の datetime 形式を選択する必要があります。

Datetime Format Preferences を使用して、アプリケーションの特定の datetime データ タイプ形式のリストを変更できます。

TIBCO Data Science - Team Studio でのデフォルト datetime 形式は、ドロップダウン リスト ボックスにリストされます。

datetime 形式のリストは事前に定義されていますが、実行時にデフォルトをオーバーライドして、別の datetime 形式を指定できます (1 回限りの Hadoop ファイル インポートの場合)。 Joda-Time API 形式を使用します。