テキスト フィーチャライザー
テキストのコーパスを数値特徴に解析します。各ドキュメントおよび選択した N-Gram またはハッシュされた特徴ごとに、どのメトリックを計算するかを選択できます。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | NLP |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
入力
オペレーターは、N-Gram 辞書ビルダー からの出力とドキュメントのデータセット (行ごとに 1 つ) を取得します。オペレーターを使用して、一連の基準に基づいて特徴として使用する N-Gram を選択します。
制限事項
[カラム名として N-Gram 値を使用する] で [はい] をクリックすると、出力を他のオペレーターに接続できません。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| テキスト列 | 分析するドキュメントを含む列。各行は 1 つのドキュメントとして扱われます。 |
| 保持するカラム | フィーチャとして通過する列。これらのカラムは変更されません。それらはそのまま出力に送信されます。 |
| N-Gram の選択方法 | 特徴として抽出する N-Gram を選択するために使用される基準。これらの設定は、N-Gram 辞書ビルダー によって入力されたトレーニング コーパスに適用されます。
|
| 選択する一意の N-Gram の最大数 (特徴ハッシュ サイズ) | 特徴として使用するために辞書から選択する N-Gram の数。デフォルト値は 500 です。 N-Gram 選択方法で [特徴ハッシュ] を選択した場合、このパラメーターはハッシュ セットのサイズを表します。 いずれの場合も、新しいデータセットの総特徴数は、選択されたパススルー カラムの数 + このパラメータの値に、[各 N-Gram およびドキュメント計算] パラメーター(1,2,3)で選択された値の数を掛けた値以下になります。 |
| N-Gram とドキュメントごとに計算 | 次のメトリックのいずれか、またはすべてを選択します。 生の N-Gram カウント - N-Gram がドキュメント内に出現する回数。 正規化された N-Gram カウント - 元のコーパスに対して単語数を正規化します。これは次の式を使用して計算されます。
ドキュメント内のトークンの数 メトリクスは、特徴化されたデータセット tf-idf - 各 N-Gram の tf-idf 値を計算します。 ノート: tf-idf (用語頻度 - 逆文書頻度) は、自然言語処理における特徴生成に使用される一般的なアルゴリズムです。文書内の用語 t の相対的な重要性を計算します。Tf-idf は、コーパス内でより頻繁に使用される用語の重みを下げます。用語の tf-idf スコアを計算するには、次の式を使用します。
TF は多くの場合、トークンごとの用語頻度として計算されますが (正規化 N-Gram 数と同じ計算を使用します)、ここではパフォーマンス上の理由から、出現回数を近似値として使用します。
*この指標は、トレーニング コーパス内の「ドキュメントの総数」です。この数値は、N-Gram 辞書ビルダー 出力のコーパス統計セクションで報告されます。 **このメトリックは、N-Gram の「ドキュメント数」に対応し、N-Gram 辞書ビルダーの辞書出力で報告されます。 tf-idf = |
| カラム名として N-Gram 値を使用する |
|
| ストレージ フォーマット | 結果を保存する形式を選択します。保存形式はオペレーターの種類によって決まります。 一般的な形式は、Avro、CSV、TSV、または Parquet です。 |
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプション。
利用可能な Avro 圧縮オプション。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
出力には 3 つのセクションがあります。
以下は、マーティン・ルーサー・キング牧師の演説「I Have A Dream」を分析するための例 (短縮版) です。



データ出力は 2 つの部分に分かれています。 1 つのデータセットは特徴化データセットです。これは、上記の 特徴化データセット (出力) セクションに示されています。これは後続のオペレーターに送信されるものです。
[N-Gram からカラム名へ] の情報を使用して、N-Gram 数値をその値にマッピングする辞書も書き出されます。
例



