N-Gram 辞書ローダー

辞書データセット入力(N-Gram 辞書ビルダー オペレーターによって作成された出力辞書データセットとまったく同じカラムを持つ)と、N-Gram 辞書ビルダー構成ファイルの場所(N-Gram 辞書ビルダー オペレーターの学習時には常に HDFS に格納され、出力接尾辞 _dictInfo を持つ)から N-Gram 辞書オブジェクトを作成します。

情報一覧

パラメーター

説明
カテゴリー NLP
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

詳細については、「N-Gram 辞書ビルダー」を参照してください。

このオペレーターを使用すると、N-Gram 辞書ビルダー オペレーターを毎回再トレーニングすることなく、N-Gram 辞書を再利用できます。N-Gram 辞書ビルダー オペレーターによって作成された辞書をカスタムの方法でフィルターし、それを新しい辞書データセットとして使用して、テキスト フィーチャライザー または LDA トレイナー オペレーターで使用できる N-Gram 辞書オブジェクトを作成できます。

入力

N-Gram 辞書(最も一般的な N-Gram 辞書ビルダー オペレーターの出力辞書で、フィルタリングされています)を表す表データセットで、N-Gram 辞書ビルダー データセット出力とまったく同じカラム名と型を持ちます。

制限事項

このオペレーターには、N-Gram 辞書ビルダー データセット出力とまったく同じカラム名と型の入力が必要です。そうしないとエラーが発生します。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
N-Gram 辞書ビルダーの設定 トレーニングされた N-Gram 辞書ビルダー オペレーターの構成パラメーターとコーパス統計が保存されている HDFS ディレクトリを選択します。
ノート: これは、最初に N-Gram 辞書ビルダー オペレーターを実行するときに作成され、_dictInfo サフィックスを追加して N-Gram 辞書データセットの同じ出力パスに保存されている必要があります。

この構成ファイルには、文書のトレーニング コーパスに関する情報と、最初に N-Gram 辞書ビルダー をトレーニングするときにユーザーが指定したオプション (ステミング、大文字と小文字の区別、ストップ ワード、文のトークン化など) に関する情報が含まれています。

出力

ビジュアル出力
ビジュアル出力には、辞書 (Dictionary)コーパス統計 (Corpus Statistics)、およびサマリー (Summary) セクションが含まれます。
辞書
オペレーターによってロードされ、将来のオペレーターに渡される N-Gram 辞書の最初のプレビューを示す表。

コーパス統計
見つかったドキュメント、N-Gram 、および一意のトークンの数の集計数を表示します。

サマリー
どのパラメーターが選択されたか、および結果がどこに保存されたかに関する情報が含まれます。この情報を使用して、完全な結果データセットに移動します。

データ出力
テキスト フィーチャライザー または LDA トレイナー オペレーター (データセット入力と組み合わせて) に接続できる N-Gram 辞書オブジェクト。