N-Gram 辞書ビルダー
テキスト コーパスに出現する可能性のある一連のトークン (1 つ以上)。N-Gram 辞書オペレーターは、コーパス内の各文書をトークンに解析し、次に考えられるすべての N-Gram (連続したトークンの組み合わせ) に解析します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | NLP |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
N-Gram 辞書ビルダー の使用方法の詳細については、コーパス解析のテストを参照してください。
入力
ドキュメントごとに 1 行と少なくとも 1 カラムのテキストを含むデータセットとして表現されるドキュメントのコーパス。 テキスト列 パラメーターから、分析するテキストが含まれるカラムを選択できます。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| テキスト列 | 各ドキュメントのテキストが含まれるカラムを選択します。 |
| N-Gram の最大サイズ | 1、2 (デフォルト)、または 3 (ユニグラム、バイグラム、またはトリグラム) である必要があります。 |
| 大文字と小文字を区別しない | [はい] (デフォルト) の場合、コーパス内のすべての単語は小文字とみなされ、「Fish」と「fish」は同じトークンとみなされます。 |
| センテンス トークン化を使用する |
|
| ステミングを使用する |
ステミングとは、単語の形式を単一の単語に縮小することを意味します。たとえば、「swims」、「swimmer」、「swimming」はすべてトークン「swim」に解析されます。ステミングは言語学の独自の複雑なサブフィールドであるため、簡単にするために、apache.open.nlp の Porter Stemmer を使用します。
ノート: ステマーは実際の英語の単語を生成しない可能性があります。たとえば、ステミングによって「ed」接尾辞が削除されるため、「parsed」のステミングされたバージョンは「pars」になります。
|
| ストップ ワードのフィルタリング |
ストップ ワードは、非常に一般的な単語、または分析には役に立たない単語です。たとえば、「a」、「the」、「that」などです。 ストップ ワード ファイル パラメーターで独自のストップ ワード リストを指定することも、ストップ ワードのデフォルトのストップ ワード リストを使用することもできます。 |
| ストップ ワードファイル | デフォルト値のままにすると、標準のストップ ワードのセットが使用されます。このリストは ストップ ワードにあります。 それ以外の場合は、ストップ ワードのリストが含まれるファイルを選択します。このリストは 1 行に 1 単語である必要があり、メモリに収まる程度の大きさでなければなりません。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
オペレーターを実行すると、次の 3 つのセクションが表示されます。


その他の注意事項
このオペレーターのデータ出力は区切りファイルとして HDFS に書き込まれますが、HDFS では認識されません。TIBCO Data Science - Team Studio 表形式のデータセットとして。これは、テキスト フィーチャライザー オペレーターによってのみ認識される特殊な N-Gram 辞書タイプであるためです。
サマリー統計 (DB) などのトランスフォーメーション オペレーターをこのオペレーターに直接接続することはできませんが、HDFS 上の結果ロケーション ([サマリー] タブで指定) に移動することはできます。結果ペインの)、ファイルをワークフローにドラッグし、他のファイルへの入力として使用します。TIBCO Data Science - Team Studio オペレーター。ただし、この方法を使用すると、ファイルが複数の部分に保存される可能性があることに注意してください。