テキスト エキストラクター

テキスト エキストラクターを使用すると、ユーザーはドキュメントのセットを含む HDFS 入力ディレクトリを選択し、そのコンテンツを解析して、解析されたテキストを含む新しいデータセットを作成できます。

情報一覧

パラメーター

説明
カテゴリー NLP
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

入力

入力を直接接続する必要はありません。パラメーター設定ダイアログから入力ディレクトリを選択します。

値が不正または欠落しています
オペレーターがドキュメントの読み取りまたは解析中にエラーが発生した場合、read_or_parse_error カラムに true のフラグが立てられ、エラーのテキストが text_content カラムに表示されます。このようなエラーは、ユーザーが選択したディレクトリ (または特定のファイル) に対する読み取り権限を持っていない場合、またはファイルが破損している場合に発生する可能性があります。

制限事項

テキスト エキストラクター は、次のファイル タイプのみを受け入れます。

  • .doc
  • .docx
  • .html
  • .log
  • .pdf
  • .ppt
  • .pptx
  • .rtf
  • .txt
  • .xml

テキスト エキストラクター はドキュメントの構造を保持しません。テキストデータのみを解析します。したがって、元の文書の構造が失われる可能性があります。

ドキュメント内のフォントが標準以外のエンコーディングを使用しており、ドキュメント構造にこれらのフォントに関連付けられた /ToUnicode テーブルが含まれていない場合、抽出されたテキスト コンテンツが文字化けする可能性があります。多くの異なるエンコーディングとフォントが存在し、それらすべてを予測することは不可能です。一部のファイルは、この重要なメタデータなしで作成されます。ファイルを適切に表示および印刷できても、ファイルにはフォントや文字の形状の意味に関する情報が含まれていません。この場合、ファイルを再作成するか、OCR を使用する必要があります。 (ソース)

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
データ ソース (HD) Hadoop データ ソース。
入力ディレクトリ 解析するファイルを含む入力ディレクトリ (単一ファイルの選択だけでなく、ワイルドカードとパターンもサポートされています)。
ヒント: 入力ディレクトリのパスは手動で入力でき、ユーザーはパス パターンとして正規表現を入力できます。

(例: /dir/user*/projectA*)

オペレーターは、選択したディレクトリ内のサブディレクトリのツリー内で選択した拡張子を持つファイルのみを解析します (他のファイルはスキップされます)。

選択した拡張子のファイルが見つからない場合、出力は空になり、付録に次のエラー メッセージが表示されます。

"No files with selected extension were found in
the input directory and subdirectories"

注意: 次の文字を含むファイル名: {}[],| はサポートされていないため、ジョブが失敗する原因になります。
解析するファイル形式 利用可能なオプションから解析するファイルの拡張子。
ノート: ファイル名には拡張子を明示的に含める必要があります。たとえば、mydoc というタイトルの PDF ファイルは読み取られませんが、mydoc.pdf というタイトルの PDF ファイルは読み取られます。
ファイルあたりの最大文字数 ファイルの文字数がこの制限を超える場合、ファイルは解析されません。デフォルトの制限は 10,000,000 文字です。カラム read_parse_error が true に設定され、出力カラム text_content にエラーが表示されます。
注意: この制限は、ユーザーが誤って解析しようとする可能性のある巨大なファイルがディレクトリに含まれているため、Spark ジョブがハングするのを避けるために設定されています。これらの大きなファイルを解析するには、この制限を増やします。これを行うには、Spark メモリ設定の調整が必要になる場合があります。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

データ出力

このオペレーターは、次の 6 つのカラムを含む表形式のデータセット (.TSV) を出力します。

  • doc_index - ドキュメントを識別するために作成された一意のインデックス。
  • file_path - 元のファイル パス。
  • file_extension - ファイルの拡張子。
  • text_content - ドキュメントから解析されたテキスト コンテンツ。
  • read_or_parse_error - このドキュメントの読み取り/解析中にエラーが発生したかどうかを決定するブール値。

    • true - 読み取りまたは解析中にエラーが発生しました。エラーが発生した場合は、text_content カラムに表示されます。
    • false - このドキュメントの解析中にエラーは発生しませんでした。

  • is_empty - 読み取られるファイルが空の場合 (または英数字が含まれていない場合)、true に設定されるブール値。