LDA トレーナー

LDA (Latent Dirichlet Allocation) は、非構造化ドキュメントのコレクションを分析するために使用される教師なしテキスト マイニング アルゴリズムです。

情報一覧

パラメーター

説明
カテゴリー NLP
データ ソース タイプ HD
出力を他のオペレーターに送信 はい
データ処理ツール Spark

LDA の使用の詳細については、教師なしテキストマイニング および LDA トレーニングとモデル評価のヒントを参照してください。

入力

LDA トレーナーには 2 つの入力が必要です。

  • 少なくとも一意のドキュメント ID カラムとテキスト コンテンツ カラム (たとえば、テキスト抽出オペレーターの出力) を含む HDFS 表形式データセット。注: 生のテキストを N-Gram 特徴に変換する「テキスト カラム」のテキスト特徴化は、LDA トレイナー オペレーターに含まれています。
  • N-Gram 辞書ビルダー (LDA トレイナーに接続された同じ表形式の入力から作成される可能性が高い)。
値が不正または欠落しています
行の Doc ID カラムまたは テキスト カラム の少なくとも 1 つに Null 値が含まれている場合、その行はデータセットから削除されます。削除された Null 値の数は、出力の サマリー セクションにリストされます ([Null データにより削除された行をファイルに書き込む] で選択したオプションに応じて異なります)。

構成

パラメーター 説明
メモ このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。
文書 ID カラム ドキュメントの一意の ID (文字カラム、整数、または ロング) を含むカラム。このカラムには一意の ID が含まれている必要があります。重複する値が見つかった場合、ジョブは失敗し、意味のあるエラー メッセージが表示されます。
テキスト カラム ドキュメントのテキスト コンテンツを含むカラム (N-Gram 辞書ビルダー および フィーチャライゼーション入力パラメーターに基づいて特徴付けられます)。
N-Gram の選択方法 LDA の単語数特徴として抽出する N-Gram を選択するために使用される基準 (基準はトレーニング コーパス、つまり N-Gram 辞書の作成に使用されるコーパスに適用されます)。

次のオプションから選択します。

  • ほとんどのドキュメントに表示する (デフォルト)
  • 最も少ないドキュメントに出現する
  • 特徴ハッシュ化 - すべての N-Gram を使用しますが、以下の [N-Gram の最大数] パラメーターで指定されたバケット数を使用してハッシュ値として格納することで、特徴空間の次元を減らします。カラムは1つのハッシュ値に関連付けられた全ての N-Gram の合計値を表します。
  • 出現頻度が最も低い (コーパス全体)
  • 最も頻繁に出現 (コーパス全体)

ノート: 「特徴ハッシュ化」オプションが選択されている場合:

  • LDA および LDA 予測器 (トピック記述データセット用) に使用される N-Gram 機能の名前形式は「ngramX」です。ここで、X は生成された N-Gram の番号です。
  • LDA で使用される各特徴に含まれる実際の N-Gram (ハッシュから) のリストは、HDFS ファイル conversion_table に保存され、LDA トレーナーのビジュアル出力 (特徴ハッシュ化からの N-Gram タブ) に表示されます。

選択する一意の N-Gram の最大数 (特徴ハッシュ化 サイズ) 特徴として使用するために辞書から選択する N-Gram の数です。N-Gram 選択方法 パラメーターで特徴ハッシュ化を選択した場合、これはハッシュ セットのサイズを表します。どちらの場合も、特徴化されたデータセット (LDA の入力として使用される) 内の特徴の総数は、この数を超えることはありません。

デフォルト値: 500

トピック数 (k) LDA をトレーニングするトピックの数を選択します。
トピックを説明するための最大用語 トピックを説明するための N-Gram の最大数を選択します。このパラメーターは、トピックの説明 データセット出力で使用する上位 N-Gram (= 各トピックの重みが最も高い N-Gram ) の数を設定します。
ドキュメントを説明する最大トピック数 ドキュメントを説明するトピックの最大数を選択します。このパラメーターは、上位トピック分布 データセット出力で使用する上位トピック (= 各ドキュメントの重みが最も高いトピック) の数を設定します。
ノート: このパラメーターは、出力の次のカラムの LDA トレーナーに接続されている LDA 予測器にも適用されます。

  • top_topics_summary
  • topic_ranked_xweight_topic_ranked_x カラムのペア

ドキュメント濃度 (α) (デフォルトでは -1 を入力) トピック全体にわたるドキュメントの事前分布のディリクレ パラメータ。対称事前分布のみがサポートされており、これは LDA で最も一般的に使用される構成です (= 値 α を持つ均一な k 次元ベクトル)。

α の値が大きいほど、より滑らかな推定分布が促進されます (つまり、各ドキュメントにはほとんどのトピックの混合が含まれる可能性が高くなります)。一方、値が小さいほど、まばらな分布が促進されます。

値は正である必要があります。 -1 と入力すると、オンライン オプティマイザーのデフォルト動作 (=値 1.0 / k の均一 k 次元ベクトル) になります。

トピック集中度 (β) (デフォルトでは -1 を入力) 期間にわたるトピックの事前分布のディリクレ パラメータ。値を大きくすると、より滑らかな推測分布が促進されます (つまり、各トピックにはほとんどの単語が混合して含まれる可能性が高くなります)、値を小さくすると、まばらな分布が促進されます。

値は正である必要があります。 -1 と入力すると、オンライン オプティマイザーのデフォルト動作 (=値 1.0 / k の均一ベクトル) になります。

最大反復回数 反復回数の制限。デフォルト値は 30 です。
ノート: 十分な反復を設定することが重要です。初期の反復では役に立たないトピックが返されることがよくありますが、それらのトピックは反復を重ねると劇的に改善されます。データセットによっては、少なくとも 20 回、場合によっては 50 ~ 100 回の反復を使用することが合理的であることがよくあります。
α の自動最適化 ドキュメント濃度 (α) (ドキュメントとトピックの分布のディリクレ パラメーター) がトレーニング中に最適化されるかどうかを示します。
ノート: このパラメーターを [はい] (デフォルト) に設定すると、トレーニングが遅くなる可能性がありますが、より良いトピックが得られる可能性があります。
ミニバッチ分数 各反復でサンプリングおよび使用されるコーパスの部分。コーパス全体が確実に使用されるように、このパラメーターは 最大反復数 と同期して設定する必要があります。 最大反復数 * ミニバッチの割合>=1 でなければなりません。そうしないと、設計時に重大なエラーが発生します。
学習率 (κ) 指数関数的減衰率の学習パラメーター。漸近収束を保証するには、[0.5, 1] の間に設定する必要があります。各反復数 (t) での学習率は、式 で計算されます。

κ のデフォルト値は 0.51 です。

学習パラメーター (τ0) 初期の反復を重み付けする (正の) 学習パラメーター。値を大きくすると、初期の反復回数が減ります。デフォルト値は 1024 です。
チェックポイントを使用する [はい] (デフォルト) または [いいえ] を選択します。チェックポイントは、ノードに障害が発生した場合の回復に役立ち、ディスク上の一時シャッフル ファイルを削除するのにも役立ちます。これは、LDA を何度も繰り返し実行する場合に重要になる可能性があります。
Null データにより削除された行をファイルに書き込む Null 値を含む行 (Doc ID カラムまたは Text カラム) は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。

ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名は bad_data です。

  • Null 行をファイルに書き込まない - Null 値データを削除して結果 UI に表示しますが、外部ファイルには書き込みません。
  • Null 行の書き込みまたはカウントを行わない (最速) - Null 値データは削除されますが、カウントおよび結果 UI には表示されません。
  • すべての Null 行をファイルに書き込む - Null 値データを削除し、削除されたすべての行を外部ファイルに書き込みます。

出力ディレクトリ 出力ファイルを保存する場所。
出力を上書き そのパスにある既存のデータを削除するかどうかを指定します。
  • はい - パスが存在する場合は、そのファイルを削除し、結果を保存します。
  • いいえ - パスがすでに存在する場合は失敗します。
高度な Spark 設定の自動最適化
  • [はい] は、デフォルトの Spark 最適化設定の使用を指定します。
  • [いいえ] を選択すると、カスタマイズされた Spark 最適化を提供できます。 [設定の編集] をクリックして、Spark の最適化をカスタマイズします。詳細については、「詳細設定ダイアログ」を参照してください。

出力

ビジュアル出力
  • モデル トレーニングのサマリー。選択されたパラメータ、モデル トレーニングの結果、結果の出力場所、処理された行数が説明されます。

    トレーニング データの対数尤度 (コーパス全体): コーパス全体の対数尤度の下限。

    トレーニング データの平均対数尤度 (ドキュメントあたり): 対数尤度/ドキュメントの総数

    トレーニング データのログの複雑さ (トークンごと): 推定されたトピックを考慮した、提供されたドキュメントのトークンごとのログの複雑さの上限 (低いほど良い)。情報理論における パープレキシティ は、確率分布 (または確率モデル) がサンプルをどの程度正確に予測するかを示す尺度であり、トピック モデリングにおけるモデルのパフォーマンスの一般的な尺度です。より具体的には、トピックが表す単語の分布によってドキュメントの単語数がどの程度適切に表現されているかを測定します。パープレキシティが低いということは、確率分布がサンプルの予測に優れていることを示します。

    • トピックの説明 (上位 X 用語) データセット (HDFS に保存): トピックごとの上位 X 用語と関連する重み:

    • 完全なトピックの分布 データセット (HDFS に保存): トピックにわたる完全なドキュメントの分布 (順序付けされておらず、すべてのトピックが表示されます):

    • トピック分布 (上位 X トピック) データセット (HDFS に保存): ドキュメントごとの上位 X トピックと関連する重み:

    • 特徴化されたデータセット (HDFS に保存): LDA アルゴリズムの入力として使用される特徴化されたデータセット:

      ([N-Gram 選択方法][特徴ハッシュ化] オプションが選択されている場合のみ)

    • 特徴ハッシュ化からの N-Gram データセット (HDFS に保存): LDA で使用される各特徴に含まれる N-Gram のリスト (ハッシュ化から):

データ出力
LDA トレーナーの主な出力は、新しいドキュメントのトピックを予測するために LDA 予測オペレーターに接続できる LDA モデルです。トレーニング ドキュメントから作成されたいくつかの HDFS 表形式データセット (トピックの説明完全なトピックの分布トップ トピックの分布注目のデータセット) も HDFS に保存されており、キャンバスにドラッグしてさらに分析することができます。