Excel のインポート (HD)

Excel ワークブック シート (またはシートの一部) を HDFS 入力としてインポートします。

情報一覧

パラメーター

説明
カテゴリー データ ロード
データ ソース タイプ HD
出力を他のオペレーターに送信 はい1
データ処理ツール なし

ノート: インポート Excel (HD) オペレーターは、Hadoop データのみを対象としています。データベース データの場合は、Excel のインポート (DB) オペレーターを使用します。

Excel ワークブックは、HDFS または現在のワークスペースに保存できます。

数式セル、スタイル、日付、通貨、パーセントなどがサポートされており、数値として解析されます。画像やピボット テーブルなどの非表形式データはスキップされます。非表示のカラムと保護されたシートは通常どおり解析されます。

入力

インポート Excel (HD) はソース オペレーターです。入力は必要ありません。
値が不正または欠落しています
空白セルまたは空のセルは Null 値に変換されます。

datetime タイプが カラム メタデータ ファイル パラメーターで指定されていても、Excel シートにこの形式で解析できない値が含まれている場合は、Null 値が使用されます。

制限事項

Excel ファイルは、TIBCO Data Science - Team Studio サーバで読み込まれます。インスタンスで利用可能なメモリによっては、このサーバーに非常に大きな Excel ファイルを読み込むと大量のメモリが必要となり、メモリ不足の問題が発生する可能性があります。詳細については、https://poi.apache.org/spreadsheet/limitations.html で Apache POI の制限を参照してください。

TIBCO Data Science - Team Studio は、alpine.conf ファイルで設定された構成パラメータ custom_operators を使用して、大きすぎるファイルのロードを回避します。Excel ファイルがこの制限より大きい場合、ファイルは読み込まれず、エラー メッセージが表示されます。デフォルト値は 30.0 (MB) です。TIBCO Data Science - Team Studio インスタンスの管理者は、デフォルト値を変更できます。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
データ ソース (Hadoop) 出力を保存するデータ ソース (および カラム メタデータ テーブルが保存される場所)。
Hadoop ファイル HDFS に保存されている場合は Excel ワークブック。
ノート: サポートされている形式は .xls、.xslx、および .xlsm です。

このフィールドを空白のままにした場合、ワーク ファイルを指定する必要があります (以下の [ワーク ファイル] パラメーターで)。

Chorus ワーク ファイル 現在のワークスペースに保存されている場合は、Excel ワークブック。拡張子が .xls、.xlsx、および .xlsm のワークブックのみが表示されます。

このフィールドを空白のままにした場合は、Hadoop ファイルを指定する必要があります (上記の [データ ソース (Hadoop)] パラメーターで)。

シート番号 抽出するシートの番号 (最初のシートは 1)。
左上コーナーのセル 選択したシート内で抽出するデータ部分の左上のセルを定義するセル アドレス (たとえば、B10)。
ノート: ワークブック シートにヘッダーが含まれている場合は、それをスキップして次の行のセルを選択します。これが必要なのは、ヘッダーが名前とカラム タイプの両方を含む CSV ファイルから [カラム メタデータ ファイル (CSV)] パラメーターで個別に読み取られるためです。
右カットオフ カラム文字 抽出するデータの部分を右側のどこで切り取るかを定義するオプションのカラム文字。指定しない場合、データ抽出は、選択された最初の行 ([左上コーナーのセル] の行番号) の最後に定義されたセルで切り取られます。
ノート: このパラメーターが指定されておらず、選択された最初の行が空であるか定義されていない場合、エラーが表示されます。
ボトム カットオフ行番号 抽出するデータの部分を下部のどこで切り取るかを定義するオプションの行番号。指定しない場合、データ抽出はシート内の最後に定義された行で切り取られます。
カラム メタデータ ファイル (CSV) 出力のヘッダーとカラムのタイプを定義する HDFS ファイル (CSV ファイル)。ファイルには、同じ長さの次の 2 つの行が含まれている必要があります。

  • カラム名の最初の行。
  • カラム タイプの 2 行目 (サポートされているタイプは int、long、double、float、chararray、および datetime で、形式が指定されています (例: datetime yyyy-MM-dd )。

このファイルは実行時に読み取られ、後続のオペレーターはオペレーターの実行後にのみ出力スキーマを使用できます。

出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。

出力

概要タブ
次の図に示すのは、選択したパラメーターのサマリー。

出力タブ
次の図が示すのは、Excel ワークブック シートから抽出されたデータのデータ プレビュー。

データ出力
シートから抽出された単一の表形式のデータセット。オペレーターの実行後にのみ後続のオペレーターに送信できます。