N-Gram 辞書ローダー
辞書データセット入力(N-Gram 辞書ビルダー オペレーターによって作成された出力辞書データセットとまったく同じカラムを持つ)と、N-Gram 辞書ビルダー構成ファイルの場所(N-Gram 辞書ビルダー オペレーターの学習時には常に HDFS に格納され、出力接尾辞 _dictInfo を持つ)から N-Gram 辞書オブジェクトを作成します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | NLP |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
詳細については、「N-Gram 辞書ビルダー」を参照してください。
このオペレーターを使用すると、N-Gram 辞書ビルダー オペレーターを毎回再トレーニングすることなく、N-Gram 辞書を再利用できます。N-Gram 辞書ビルダー オペレーターによって作成された辞書をカスタムの方法でフィルターし、それを新しい辞書データセットとして使用して、テキスト フィーチャライザー または LDA トレイナー オペレーターで使用できる N-Gram 辞書オブジェクトを作成できます。
入力
N-Gram 辞書(最も一般的な N-Gram 辞書ビルダー オペレーターの出力辞書で、フィルタリングされています)を表す表データセットで、N-Gram 辞書ビルダー データセット出力とまったく同じカラム名と型を持ちます。
制限事項
このオペレーターには、N-Gram 辞書ビルダー データセット出力とまったく同じカラム名と型の入力が必要です。そうしないとエラーが発生します。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| N-Gram 辞書ビルダーの設定 | トレーニングされた N-Gram 辞書ビルダー オペレーターの構成パラメーターとコーパス統計が保存されている HDFS ディレクトリを選択します。 ノート: これは、最初に N-Gram 辞書ビルダー オペレーターを実行するときに作成され、 _dictInfo サフィックスを追加して N-Gram 辞書データセットの同じ出力パスに保存されている必要があります。この構成ファイルには、文書のトレーニング コーパスに関する情報と、最初に N-Gram 辞書ビルダー をトレーニングするときにユーザーが指定したオプション (ステミング、大文字と小文字の区別、ストップ ワード、文のトークン化など) に関する情報が含まれています。 |
出力



例