N-Gram 辞書ビルダー

テキスト コーパスに出現する可能性のある一連のトークン (1 つ以上)。N-Gram 辞書オペレーターは、コーパス内の各文書をトークンに解析し、次に考えられるすべての N-Gram (連続したトークンの組み合わせ) に解析します。

情報一覧

パラメーター

説明
カテゴリー NLP
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

N-Gram 辞書ビルダー の使用方法の詳細については、コーパス解析のテストを参照してください。

入力

ドキュメントごとに 1 行と少なくとも 1 カラムのテキストを含むデータセットとして表現されるドキュメントのコーパス。 テキスト列 パラメーターから、分析するテキストが含まれるカラムを選択できます。

構成

重要: テキスト フィーチャライザー オペレーターは、この演算子で構築された辞書と同じ構文解析ルールを使用します。したがって、この辞書ビルダーをテキスト フィーチャライザーに接続する場合は、この演算子のトークン化設定(大文字小文字を 区別しないセンテンス トークン化を使用するステマーを使用するストップ ワードをフィルターする)が使用されることに注意してください。
パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
テキスト列 各ドキュメントのテキストが含まれるカラムを選択します。
N-Gram の最大サイズ 12 (デフォルト)、または 3 (ユニグラム、バイグラム、またはトリグラム) である必要があります。
大文字と小文字を区別しない [はい] (デフォルト) の場合、コーパス内のすべての単語は小文字とみなされ、「Fish」と「fish」は同じトークンとみなされます。
センテンス トークン化を使用する
  • [はい] の場合は、apache.open.nlp の Sentence Tokenizer を使用して、文の終わりがどこにあるかを判断します。N-Gram は文単位内からのみ計算されます。
  • [いいえ] (デフォルト) の場合、複数の文にわたって N-Gram を形成できます。たとえば、「これは文 1 です。これは文 2 です。」というテキストです。 「1 つの This」をバイグラムとして取得できます。
ステミングを使用する

ステミングとは、単語の形式を単一の単語に縮小することを意味します。たとえば、「swims」、「swimmer」、「swimming」はすべてトークン「swim」に解析されます。ステミングは言語学の独自の複雑なサブフィールドであるため、簡単にするために、apache.open.nlp の Porter Stemmer を使用します。

  • [はい] の場合、N-Gram を計算する前に、各トークンをそのルート ワードに解析します。
  • デフォルト値: いいえ

ノート: ステマーは実際の英語の単語を生成しない可能性があります。たとえば、ステミングによって「ed」接尾辞が削除されるため、「parsed」のステミングされたバージョンは「pars」になります。
ストップ ワードのフィルタリング
  • [はい] の場合、ストップ ワードはデータセットから削除されます。
  • [いいえ] (デフォルト) の場合、ストップ ワードはデータセットに残ります。

ストップ ワードは、非常に一般的な単語、または分析には役に立たない単語です。たとえば、「a」、「the」、「that」などです。 ストップ ワード ファイル パラメーターで独自のストップ ワード リストを指定することも、ストップ ワードのデフォルトのストップ ワード リストを使用することもできます。

ストップ ワードファイル デフォルト値のままにすると、標準のストップ ワードのセットが使用されます。このリストは ストップ ワードにあります。

それ以外の場合は、ストップ ワードのリストが含まれるファイルを選択します。このリストは 1 行に 1 単語である必要があり、メモリに収まる程度の大きさでなければなりません。

  • デフォルト値: @default_tempdir/alpine_out/@user_name/@flow_name

出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力

オペレーターを実行すると、次の 3 つのセクションが表示されます。

辞書
オペレーターによって生成され、将来のオペレーターに渡される N-Gram 辞書の最初のプレビューを示す表。
コーパス統計
次の例に示すように、見つかったドキュメント、N-Gram 、および一意のトークンの数の集計数が表示されます。

サマリー
どのパラメーターが選択されたか、および結果がどこに保存されたかに関する情報が含まれます。この情報を使用して、完全な結果データセットに移動します。

その他の注意事項

このオペレーターのデータ出力は区切りファイルとして HDFS に書き込まれますが、HDFS では認識されません。TIBCO Data Science - Team Studio 表形式のデータセットとして。これは、テキスト フィーチャライザー オペレーターによってのみ認識される特殊な N-Gram 辞書タイプであるためです。

サマリー統計 (DB) などのトランスフォーメーション オペレーターをこのオペレーターに直接接続することはできませんが、HDFS 上の結果ロケーション ([サマリー] タブで指定) に移動することはできます。結果ペインの)、ファイルをワークフローにドラッグし、他のファイルへの入力として使用します。TIBCO Data Science - Team Studio オペレーター。ただし、この方法を使用すると、ファイルが複数の部分に保存される可能性があることに注意してください。