📌
潜在的ディリクレ配分(LDA:Latent Dirichlet Allocation)
潜在的ディリクレ配分(LDA:Latent Dirichlet Allocation)
概要
- 意味:文章の中に「どんな話題(トピック)」が含まれているかを自動で見つける手法
- 英語名:Latent Dirichlet Allocation(略称:LDA)
- 目的:大量の文章を「トピックごと」に分類・要約する
基本の考え方
- 一つの文書には、複数のトピックが混ざっていると考える
- 各トピックは「特定の単語の出やすさ」で表される
- 各文書は「トピックの割合」で構成される
- 文書全体を「単語 → トピック → 文書」の確率モデルで説明する
仕組みの流れ
- 各トピックごとに「単語の分布」を仮定(例:スポーツなら「試合」「選手」など)
- 各文書ごとに「トピックの分布」を仮定(例:A文書はスポーツ70%、政治30%)
- 単語が出てくるたびに「どのトピックから出たか」を確率的に推定
- この推定を繰り返して、文書と単語の関係を学習
用語のポイント
- 潜在的(Latent):直接は見えない「トピック(話題)」を推定する
- ディリクレ分布(Dirichlet Distribution):確率の「割合(トピックの混ざり具合)」を表す分布
- 配分(Allocation):文書内の単語を、どのトピックに属するか割り当てること
メリット
- 文書を自動で分類・要約できる
- 教師データ(ラベル)が不要な「教師なし学習」
- SNS投稿、ニュース記事、レビュー分析などに応用可能
試験での理解ポイント
- G検定:教師なし学習・確率モデルの代表例として出題される
- E検定:確率的生成モデルの例として理解しておく
Discussion