LDA トレーナー
LDA (Latent Dirichlet Allocation) は、非構造化ドキュメントのコレクションを分析するために使用される教師なしテキスト マイニング アルゴリズムです。
情報一覧
|
パラメーター |
説明 |
|---|---|
| カテゴリー | NLP |
| データ ソース タイプ | HD |
| 出力を他のオペレーターに送信 | はい |
| データ処理ツール | Spark |
LDA の使用の詳細については、教師なしテキストマイニング および LDA トレーニングとモデル評価のヒントを参照してください。
入力
LDA トレーナーには 2 つの入力が必要です。
- 少なくとも一意のドキュメント ID カラムとテキスト コンテンツ カラム (たとえば、テキスト抽出オペレーターの出力) を含む HDFS 表形式データセット。注: 生のテキストを N-Gram 特徴に変換する「テキスト カラム」のテキスト特徴化は、LDA トレイナー オペレーターに含まれています。
- N-Gram 辞書ビルダー (LDA トレイナーに接続された同じ表形式の入力から作成される可能性が高い)。
構成
| パラメーター | 説明 |
|---|---|
| メモ | このオペレーターのパラメーター設定に関するメモまたは役立つ情報。 [ノート] フィールドに内容を入力すると、オペレーターに黄色のアスタリスクが表示されます。 |
| 文書 ID カラム | ドキュメントの一意の ID (文字カラム、整数、または ロング) を含むカラム。このカラムには一意の ID が含まれている必要があります。重複する値が見つかった場合、ジョブは失敗し、意味のあるエラー メッセージが表示されます。 |
| テキスト カラム | ドキュメントのテキスト コンテンツを含むカラム (N-Gram 辞書ビルダー および フィーチャライゼーション入力パラメーターに基づいて特徴付けられます)。 |
| N-Gram の選択方法 | LDA の単語数特徴として抽出する N-Gram を選択するために使用される基準 (基準はトレーニング コーパス、つまり N-Gram 辞書の作成に使用されるコーパスに適用されます)。 次のオプションから選択します。
ノート: 「特徴ハッシュ化」オプションが選択されている場合:
|
| 選択する一意の N-Gram の最大数 (特徴ハッシュ化 サイズ) | 特徴として使用するために辞書から選択する N-Gram の数です。N-Gram 選択方法 パラメーターで特徴ハッシュ化を選択した場合、これはハッシュ セットのサイズを表します。どちらの場合も、特徴化されたデータセット (LDA の入力として使用される) 内の特徴の総数は、この数を超えることはありません。 デフォルト値: 500 |
| トピック数 (k) | LDA をトレーニングするトピックの数を選択します。 |
| トピックを説明するための最大用語 | トピックを説明するための N-Gram の最大数を選択します。このパラメーターは、トピックの説明 データセット出力で使用する上位 N-Gram (= 各トピックの重みが最も高い N-Gram ) の数を設定します。 |
| ドキュメントを説明する最大トピック数 | ドキュメントを説明するトピックの最大数を選択します。このパラメーターは、上位トピック分布 データセット出力で使用する上位トピック (= 各ドキュメントの重みが最も高いトピック) の数を設定します。 ノート: このパラメーターは、出力の次のカラムの LDA トレーナーに接続されている LDA 予測器にも適用されます。
|
| ドキュメント濃度 (α) (デフォルトでは -1 を入力) | トピック全体にわたるドキュメントの事前分布のディリクレ パラメータ。対称事前分布のみがサポートされており、これは LDA で最も一般的に使用される構成です (= 値 α を持つ均一な k 次元ベクトル)。 α の値が大きいほど、より滑らかな推定分布が促進されます (つまり、各ドキュメントにはほとんどのトピックの混合が含まれる可能性が高くなります)。一方、値が小さいほど、まばらな分布が促進されます。 値は正である必要があります。 -1 と入力すると、オンライン オプティマイザーのデフォルト動作 (=値 1.0 / k の均一 k 次元ベクトル) になります。 |
| トピック集中度 (β) (デフォルトでは -1 を入力) | 期間にわたるトピックの事前分布のディリクレ パラメータ。値を大きくすると、より滑らかな推測分布が促進されます (つまり、各トピックにはほとんどの単語が混合して含まれる可能性が高くなります)、値を小さくすると、まばらな分布が促進されます。 値は正である必要があります。 -1 と入力すると、オンライン オプティマイザーのデフォルト動作 (=値 1.0 / k の均一ベクトル) になります。 |
| 最大反復回数 | 反復回数の制限。デフォルト値は 30 です。 ノート: 十分な反復を設定することが重要です。初期の反復では役に立たないトピックが返されることがよくありますが、それらのトピックは反復を重ねると劇的に改善されます。データセットによっては、少なくとも 20 回、場合によっては 50 ~ 100 回の反復を使用することが合理的であることがよくあります。 |
| α の自動最適化 | ドキュメント濃度 (α) (ドキュメントとトピックの分布のディリクレ パラメーター) がトレーニング中に最適化されるかどうかを示します。 ノート: このパラメーターを [はい] (デフォルト) に設定すると、トレーニングが遅くなる可能性がありますが、より良いトピックが得られる可能性があります。 |
| ミニバッチ分数 | 各反復でサンプリングおよび使用されるコーパスの部分。コーパス全体が確実に使用されるように、このパラメーターは 最大反復数 と同期して設定する必要があります。 最大反復数 * ミニバッチの割合 は >=1 でなければなりません。そうしないと、設計時に重大なエラーが発生します。 |
| 学習率 (κ) | 指数関数的減衰率の学習パラメーター。漸近収束を保証するには、[0.5, 1] の間に設定する必要があります。各反復数 (t) での学習率は、式 で計算されます。κ のデフォルト値は 0.51 です。 |
| 学習パラメーター (τ0) | 初期の反復を重み付けする (正の) 学習パラメーター。値を大きくすると、初期の反復回数が減ります。デフォルト値は 1024 です。 |
| チェックポイントを使用する | [はい] (デフォルト) または [いいえ] を選択します。チェックポイントは、ノードに障害が発生した場合の回復に役立ち、ディスク上の一時シャッフル ファイルを削除するのにも役立ちます。これは、LDA を何度も繰り返し実行する場合に重要になる可能性があります。 |
| Null データにより削除された行をファイルに書き込む | Null 値を含む行 (Doc ID カラムまたは Text カラム) は分析から削除されます。このパラメーターを使用すると、Null 値を含むデータをファイルに書き込むように指定できます。 ファイルは残りの出力と同じディレクトリに書き込まれます。ファイル名は bad_data です。
|
| 出力ディレクトリ | 出力ファイルを保存する場所。 |
| 出力を上書き | そのパスにある既存のデータを削除するかどうかを指定します。
|
| 高度な Spark 設定の自動最適化 |
|
出力
- モデル トレーニングのサマリー。選択されたパラメータ、モデル トレーニングの結果、結果の出力場所、処理された行数が説明されます。

トレーニング データの対数尤度 (コーパス全体): コーパス全体の対数尤度の下限。
トレーニング データの平均対数尤度 (ドキュメントあたり): 対数尤度/ドキュメントの総数
トレーニング データのログの複雑さ (トークンごと): 推定されたトピックを考慮した、提供されたドキュメントのトークンごとのログの複雑さの上限 (低いほど良い)。情報理論における パープレキシティ は、確率分布 (または確率モデル) がサンプルをどの程度正確に予測するかを示す尺度であり、トピック モデリングにおけるモデルのパフォーマンスの一般的な尺度です。より具体的には、トピックが表す単語の分布によってドキュメントの単語数がどの程度適切に表現されているかを測定します。パープレキシティが低いということは、確率分布がサンプルの予測に優れていることを示します。
- トピックの説明 (上位 X 用語) データセット (HDFS に保存): トピックごとの上位 X 用語と関連する重み:

- 完全なトピックの分布 データセット (HDFS に保存): トピックにわたる完全なドキュメントの分布 (順序付けされておらず、すべてのトピックが表示されます):

- トピック分布 (上位 X トピック) データセット (HDFS に保存): ドキュメントごとの上位 X トピックと関連する重み:

- 特徴化されたデータセット (HDFS に保存): LDA アルゴリズムの入力として使用される特徴化されたデータセット:

([N-Gram 選択方法] で [特徴ハッシュ化] オプションが選択されている場合のみ)
- 特徴ハッシュ化からの N-Gram データセット (HDFS に保存): LDA で使用される各特徴に含まれる N-Gram のリスト (ハッシュ化から):

- トピックの説明 (上位 X 用語) データセット (HDFS に保存): トピックごとの上位 X 用語と関連する重み:
その他の注意事項
例
で計算されます。