LDA トレーニングとモデル評価のヒント

LDA 予測器と LDA トレーナーを使用する場合、次のガイドラインに従うと、より有意義な結果が得られます。

  • 使用する正しい N-Gram を選択: N-Gram 辞書と使用する N-Gram 選択方法が適切であることを確認します(N-Gram 辞書ビルダーでカスタマイズしたストップ ワードを指定/更新し、N-Gram選択方法を変更する)。
    • 一般的なストップ ワードや、使用目的に関係のないその他の単語のセットをフィルターします。
    • 頻度の高い単語がコーパスの残りの部分を圧倒しないようにしてください。
    • おそらく、使用頻度の低い単語も必要ないかもしれません。
  • LDA を十分な時間実行します (関連トピックを取得するには、多くの反復が必要になる場合があります)。
  • さまざまなパラメーター (トピック数など) を試し、保持されたサンプルで対数の複雑さを評価します。
  • 優れた LDA モデルを構築するには、多くの場合、多くの反復と人間によるフィードバックが必要です。確かに、対数パープレキシティはモデルやパラメーター設定間の相対的な比較には適していますが、その数値にはあまり意味がなく、人間の判断とは相関関係がありません。
    • トピックを検査する: 各トピックで最も可能性の高い単語を調べます。それらはまとまったトピックを形成しているように聞こえますか、それとも単にランダムな単語のグループを形成しているように聞こえますか?
    • トピックの割り当てを調べます。トレーニングで得たいくつかのランダムな文書を差し出し、LDA がそれらにどのトピックを割り当てるかを確認します。ドキュメントと、割り当てられたトピックの上位の単語を手動で検査します。トピックはドキュメントの実際の内容を本当に説明しているように見えますか?
  • トピックの単語の密度を確認します。構成単語の密度が弱い/低いトピックがある場合、それは弱いトピックである可能性が高くなります。