LDA 予測器
LDA トレーナーによってトレーニングされたモデルと表形式のデータセットの両方を使用して、新しいドキュメントのトピック予測をさまざまな形式で出力します。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | NLP |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい1 |
| データ処理ツール | Spark |
このオペレーターは、LDA 予測の入力として使用される (および LDA トレーナーで指定された特徴化パラメーターから作成された) 特徴化されたデータセットも HDFS に保存します。このデータセットをキャンバスにドラッグして、さらに分析することができます。
LDA の使用の詳細については、「教師なしテキストマイニング」 および 「LDA トレーニングとモデル評価のヒント」を参照してください。
入力
LDA 予測器には次の 2 つの入力が必要です。
- LDA トレーナーからの出力モデル。
- 少なくとも一意のドキュメント ID カラムとテキスト コンテンツ カラム (たとえば、テキスト抽出オペレーターの出力) を含む表形式のデータセット。ノート: LDA 予測器 オペレーターには、生のテキストを N-Gram 特徴に変換する テキスト カラム の テキスト フィーチャライゼーションが含まれています。
構成
| パラメーター | 説明 |
|---|---|
| ノート | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| ドキュメント ID カラム
*必須 |
ドキュメントの一意の ID (文字カラム、整数、または ロング) を含むカラム。 ノート: このカラムには一意の ID が含まれている必要があります。重複する値が見つかった場合、ジョブは失敗し、エラー メッセージが表示されます。 |
| テキスト カラム
*必須 |
ドキュメントのテキスト コンテンツを含むカラム (N-Gram 辞書ビルダー および フィーチャライゼーション入力パラメーターに基づいて特徴付けられます)。 |
| 保持するその他のカラム | 出力データセットに保持するカラム。 |
| Null データにより削除された行をファイルに書き込む
*必須 |
Null 値を含む行 (Doc ID カラム または テキスト カラム) は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。 ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名は bad_data です。
|
| 圧縮 | 出力の圧縮のタイプを選択します。 利用可能な Parquet 圧縮オプションは次のとおりです。
利用可能な Avro 圧縮オプションは次のとおりです。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力名 | 結果を含める名前。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
- 次のカラムを含む表形式のデータセット出力 (ユーザーの特定の使用例に必要なカラムに応じて、さらにフィルタリングできます)。
- Doc ID カラム と パス スルー カラムが選択されます。
- top_topics_summary カラムには、上位トピックとそれに対応する重みが辞書形式で表示されます (表示される上位トピックの数は、LDA トレーナーで設定された ドキュメントを説明する最大トピック数 パラメーターに対応します)。
- 全トピック分散重み (weight_topic_X カラム)
- カラム (topic_ranked_X、weight_topic_ranked_X) のペアとしての上位トピックの分布。表示される上位トピックの数は、LDA トレーナーで設定された ドキュメントを説明する最大トピック数 パラメーターに対応します。

- 特徴化データセット (HDFS に保存): LDA 予測の入力として使用される特徴化データセット:

- サマリー タブでは、選択したパラメータ、モデルの予測結果、結果の出力場所、処理された行数が説明されます。

トレーニング データの対数尤度 (コーパス全体): コーパス全体の対数尤度の下限。
トレーニング データの平均対数尤度 (ドキュメントあたり): 対数尤度/ドキュメントの総数
トレーニング データのログの複雑さ (トークンごと): 推定されたトピックを考慮した、提供されたドキュメントのトークンごとのログの複雑さの上限 (低いほど良い)。情報理論における パープレキシティ は、確率分布 (または確率モデル) がサンプルをどの程度正確に予測するかを示す尺度であり、トピック モデリングにおけるモデルのパフォーマンスの一般的な尺度です。より具体的には、ドキュメントの単語数がトピックによって表される単語の分布によってどの程度よく表されるかを測定します。パープレキシティが低いということは、確率分布がサンプルの予測に優れていることを示します。
- トランスポーズ オペレーターの構成プロパティを変更します。
- トランスポーズ オペレーターに接続されている入力を変更します。
- トランスポーズ オペレーターのステップ実行結果をクリアします。
この場合、後続のオペレーターに送信される出力スキーマは、設計時に定義された部分スキーマになります (したがって、後続のオペレーターは無効になる可能性があります)。新しい出力スキーマを送信するには、トランスポーズ オペレーターを再度実行する必要があります。
例