テキスト フィーチャライザー

テキストのコーパスを数値特徴に解析します。各ドキュメントおよび選択した N-Gram またはハッシュされた特徴ごとに、どのメトリックを計算するかを選択できます。

情報一覧

パラメーター

説明
カテゴリー NLP
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

入力

オペレーターは、N-Gram 辞書ビルダー からの出力とドキュメントのデータセット (行ごとに 1 つ) を取得します。オペレーターを使用して、一連の基準に基づいて特徴として使用する N-Gram を選択します。

値が不正または欠落しています
Null 値を含む行は削除されません。代わりに、空の値は単に N-Gram のないドキュメントとみなされます。

制限事項

[カラム名として N-Gram 値を使用する][はい] をクリックすると、出力を他のオペレーターに接続できません。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
テキスト列 分析するドキュメントを含む列。各行は 1 つのドキュメントとして扱われます。
保持するカラム フィーチャとして通過する列。これらのカラムは変更されません。それらはそのまま出力に送信されます。
N-Gram の選択方法 特徴として抽出する N-Gram を選択するために使用される基準。これらの設定は、N-Gram 辞書ビルダー によって入力されたトレーニング コーパスに適用されます。

  • ほとんどのドキュメントに表示する (デフォルト)
  • 最も少ないドキュメントに表示する
  • 特徴ハッシュ - すべての N-Gram を使用しますが、各 N-Gram を以下の 一意の N-Gram の最大数パラメーターで指定されたバケット数を使用してハッシュ値として格納することで、特徴空間の次元を減らします。カラムは 1 つのハッシュ値に関連する全ての N-Gram の合計値を表します。
  • 出現頻度が最も低い (コーパス全体)
  • 出現頻度が最も頻繁 (コーパス全体)

選択する一意の N-Gram の最大数 (特徴ハッシュ サイズ) 特徴として使用するために辞書から選択する N-Gram の数。デフォルト値は 500 です。

N-Gram 選択方法[特徴ハッシュ] を選択した場合、このパラメーターはハッシュ セットのサイズを表します。

いずれの場合も、新しいデータセットの総特徴数は、選択されたパススルー カラムの数 + このパラメータの値に、[各 N-Gram およびドキュメント計算] パラメーター(1,2,3)で選択された値の数を掛けた値以下になります。

N-Gram とドキュメントごとに計算 次のメトリックのいずれか、またはすべてを選択します。

生の N-Gram カウント - N-Gram がドキュメント内に出現する回数。

正規化された N-Gram カウント - 元のコーパスに対して単語数を正規化します。これは次の式を使用して計算されます。

ドキュメント内のトークンの数 メトリクスは、特徴化されたデータセット number_of_tokens の最初の列出力で報告されます。カスタムのトークン化とストップ ワードの削除を使用すると、トークンの概念が複雑になる場合があります。ドキュメント内でストップ ワードの後に見つかったユニグラムの数を使用し、特殊文字は削除されます。

tf-idf - 各 N-Gram の tf-idf 値を計算します。

ノート: tf-idf (用語頻度 - 逆文書頻度) は、自然言語処理における特徴生成に使用される一般的なアルゴリズムです。文書内の用語 t の相対的な重要性を計算します。Tf-idf は、コーパス内でより頻繁に使用される用語の重みを下げます。用語の tf-idf スコアを計算するには、次の式を使用します。

TF は多くの場合、トークンごとの用語頻度として計算されますが (正規化 N-Gram 数と同じ計算を使用します)、ここではパフォーマンス上の理由から、出現回数を近似値として使用します。

*この指標は、トレーニング コーパス内の「ドキュメントの総数」です。この数値は、N-Gram 辞書ビルダー 出力のコーパス統計セクションで報告されます。

**このメトリックは、N-Gram の「ドキュメント数」に対応し、N-Gram 辞書ビルダーの辞書出力で報告されます。

tf-idf = TF(t) * IDF(t)

tf-idf メトリクスの詳細については、http://www.tfidf.com/を参照してください。
カラム名として N-Gram 値を使用する
  • はい - カラム名は ngram1_raw_count の形式ではありません。代わりに、これらは実際の N-Gram の名前です。ngram1_raw_count を確認してテーブルを参照して ngram1 が実際に何であるかを確認する代わりに、トークン「swim」のカラム名 swim_raw_count が表示されます。

    重要: このオプションを選択すると、オペレーターを別のオペレーターに接続できますが、N-Gram を含むカラムは表示されません。代わりに、「Pass Through Columns」と、ドキュメント レベルの統計を含む 4 つの列 (number_of_tokens、normalized_number_tokens、number_unique_tokens、およびnormalized_number_unique_tokens) のみが表示されます。
    ヒント: さらに分析するために完全な出力 (N-Gram 値カラムを含む) を利用したい場合は、出力を HDFS からキャンバスにドラッグし、後続のオペレーターに接続できます。

    「アデンダム」では、結果の出力場所を指定します。その場所に移動し、ディレクトリ全体をキャンバスにドラッグします。

    テキスト フィーチャライザーの結果の使用」を参照してください。
  • [いいえ] (デフォルト) - オペレーターは非終端です。つまり、後続のオペレーターに接続してすべての出力カラムを送信できますが、カラム名は N-Gram の番号になります。これは、出力内のカラムには ngram1_raw_count や ngram2_raw_count などの名前が付いていますが、これらの N-Gram の値は出力内の別のテーブル内のそれらの数値にマップされることを意味します。
ストレージ フォーマット 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。

一般的な形式は、AvroCSVTSV、または Parquet です。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプション。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプション。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

出力には 3 つのセクションがあります。

特徴的なデータセット (出力)
次のオペレーターに渡される出力。各ドキュメントの行と、N-Gram 用に生成された特徴のカラムが含まれます。

以下は、マーティン・ルーサー・キング牧師の演説「I Have A Dream」を分析するための例 (短縮版) です。

N-Gram からカラム名へ
ngram5 などのカラム名で使用される N-Gram の名前に、N-Gram の実際の値 (例: 「freedom」) を辞書化したもの。特徴ハッシュが使用された場合、これは基本的に空です。

サマリー
結果がどこに書き込まれたか、およびどのパラメーターが選択されたかに関する情報。

データ出力

データ出力は 2 つの部分に分かれています。 1 つのデータセットは特徴化データセットです。これは、上記の 特徴化データセット (出力) セクションに示されています。これは後続のオペレーターに送信されるものです。

[N-Gram からカラム名へ] の情報を使用して、N-Gram 数値をその値にマッピングする辞書も書き出されます。