LDA 予測器

LDA トレーナーによってトレーニングされたモデルと表形式のデータセットの両方を使用して、新しいドキュメントのトピック予測をさまざまな形式で出力します。

情報一覧

パラメーター

説明
カテゴリー NLP
データ ソース タイプ HD
出力を他のオペレーターに送信 はい1
データ処理ツール Spark

このオペレーターは、LDA 予測の入力として使用される (および LDA トレーナーで指定された特徴化パラメーターから作成された) 特徴化されたデータセットも HDFS に保存します。このデータセットをキャンバスにドラッグして、さらに分析することができます。

LDA の使用の詳細については、「教師なしテキストマイニング」 および 「LDA トレーニングとモデル評価のヒント」を参照してください。

入力

LDA 予測器には次の 2 つの入力が必要です。

  • LDA トレーナーからの出力モデル。
  • 少なくとも一意のドキュメント ID カラムとテキスト コンテンツ カラム (たとえば、テキスト抽出オペレーターの出力) を含む表形式のデータセット。
    ノート: LDA 予測器 オペレーターには、生のテキストを N-Gram 特徴に変換する テキスト カラム の テキスト フィーチャライゼーションが含まれています。
値が不正または欠落しています
行の Doc ID カラム または テキスト カラムの少なくとも 1 つに Null 値が含まれている場合、その行はデータセットから削除されます。削除された Null 値の数は、出力の サマリー セクションにリストされます ([Null データにより削除された行をファイルに書き込む] で選択したオプションに応じて異なります)。

構成

パラメーター 説明
ノート このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
ドキュメント ID カラム

*必須

ドキュメントの一意の ID (文字カラム、整数、または ロング) を含むカラム。
ノート: このカラムには一意の ID が含まれている必要があります。重複する値が見つかった場合、ジョブは失敗し、エラー メッセージが表示されます。
テキスト カラム

*必須

ドキュメントのテキスト コンテンツを含むカラム (N-Gram 辞書ビルダー および フィーチャライゼーション入力パラメーターに基づいて特徴付けられます)。
保持するその他のカラム 出力データセットに保持するカラム。
Null データにより削除された行をファイルに書き込む

*必須

Null 値を含む行 (Doc ID カラム または テキスト カラム) は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名は bad_data です。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データを削除しますが、カウントして結果 UI に表示しません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

圧縮 出力の圧縮のタイプを選択します。

利用可能な Parquet 圧縮オプションは次のとおりです。

  • GZIP
  • Deflate
  • Snappy
  • 圧縮なし

利用可能な Avro 圧縮オプションは次のとおりです。

  • Deflate
  • Snappy
  • 圧縮なし
出力ディレクトリ 出力ファイルを保存する場所。
出力名 結果を含める名前。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
  • 次のカラムを含む表形式のデータセット出力 (ユーザーの特定の使用例に必要なカラムに応じて、さらにフィルタリングできます)。
    • Doc ID カラムパス スルー カラムが選択されます。
    • top_topics_summary カラムには、上位トピックとそれに対応する重みが辞書形式で表示されます (表示される上位トピックの数は、LDA トレーナーで設定された ドキュメントを説明する最大トピック数 パラメーターに対応します)。
    • 全トピック分散重み (weight_topic_X カラム)
    • カラム (topic_ranked_Xweight_topic_ranked_X) のペアとしての上位トピックの分布。表示される上位トピックの数は、LDA トレーナーで設定された ドキュメントを説明する最大トピック数 パラメーターに対応します。

  • 特徴化データセット (HDFS に保存): LDA 予測の入力として使用される特徴化データセット:

  • サマリー タブでは、選択したパラメータ、モデルの予測結果、結果の出力場所、処理された行数が説明されます。

トレーニング データの対数尤度 (コーパス全体): コーパス全体の対数尤度の下限。

トレーニング データの平均対数尤度 (ドキュメントあたり): 対数尤度/ドキュメントの総数

トレーニング データのログの複雑さ (トークンごと): 推定されたトピックを考慮した、提供されたドキュメントのトークンごとのログの複雑さの上限 (低いほど良い)。情報理論における パープレキシティ は、確率分布 (または確率モデル) がサンプルをどの程度正確に予測するかを示す尺度であり、トピック モデリングにおけるモデルのパフォーマンスの一般的な尺度です。より具体的には、ドキュメントの単語数がトピックによって表される単語の分布によってどの程度よく表されるかを測定します。パープレキシティが低いということは、確率分布がサンプルの予測に優れていることを示します。

データ出力
これは準ターミナル オペレーターです。設計時に後続のオペレーターに接続できますが、ユーザーがオペレーターを実行するまで完全な出力スキーマは送信されません。設計時の部分的な出力スキーマは、出力の最初のカラム(Doc ID カラム、選択された パス スルー カラム、および top_topics_summary カラム) のみです。実行後、出力スキーマは自動的に更新され、UI パラメーターの選択が有効でなくなった場合には後続のオペレーターが赤色に変わります。
ノート: 次のいずれかのアクションを実行すると、トランスポーズ オペレーターの最終出力スキーマがクリアされます。

  • トランスポーズ オペレーターの構成プロパティを変更します。
  • トランスポーズ オペレーターに接続されている入力を変更します。
  • トランスポーズ オペレーターのステップ実行結果をクリアします。

この場合、後続のオペレーターに送信される出力スキーマは、設計時に定義された部分スキーマになります (したがって、後続のオペレーターは無効になる可能性があります)。新しい出力スキーマを送信するには、トランスポーズ オペレーターを再度実行する必要があります。