コーパス解析のテスト
TIBCO Data Science - Team Studio N-Gram 辞書ビルダー は、テキスト コーパスを解析し、トークンを作成して、考えられるすべての N-Gram (連続したトークンの組み合わせ) に解析できます。
次の例では、Dr. Seuss からのテキストは、1 行に 1 つずつ、合計 2 つの「ドキュメント」として扱われます。
one fish, two fish, red fish, blue fish
これは次の N-Gram に解析されます。
| 長さ 1 (ユニグラム) | one, fish, two, red, blue |
| 長さ 2 (バイグラム) | one fish, two fish, red fish, blue fish |
| 長さ 3 (トリグラム) | one fish two, red fish blue |
N-Gram 辞書ビルダー オペレーターの出力は次のようになります。
| ngram | size_of_ngram | total_count_in_corpus | number_of_documents |
|---|---|---|---|
| 一 | 1 | 1 | 1 |
| one fish | 2 | 1 | 1 |
| fish | 1 | 4 | 2 |
| ... |
ファイル内の各行が 1 つのドキュメントを参照していることに注意してください。
重要: この演算子の出力データは区切りファイルとして HDFS に書き出されますが、TIBCO Data Science - Team Studio では表形式のデータセットとして認識されません。これは、テキスト フィーチャライザー オペレーターによってのみ認識される特別な N-Gram 辞書タイプであるためです。
サマリー統計 (DB) のような変換オペレーターをこのオペレーターに直接接続することはできませんが、HDFS 上の結果の場所(結果ペインの [サマリー] タブで指定)に移動し、ファイルをワークフロー上にドラッグし、それを他の TIBCO Data Science - Team Studio オペレーターの入力として使用することができます。ただし、この方法を使用する場合、ファイルは複数の部分に保存される可能性があることに注意してください。