🐹

AI・機械学習入門④教師なし学習モデルの基礎

に公開

教師なし学習モデルの基礎

はじめに

前回までの記事では、教師あり学習に分類される回帰・分類モデルを中心に解説しました。
https://zenn.dev/knowledgelabo/articles/fee07c8c1fdd43
https://zenn.dev/knowledgelabo/articles/f9f03c87db818d
https://zenn.dev/knowledgelabo/articles/c42838304c3161

今回は、ラベルが与えられていないデータから学習する教師なし学習について扱います。

教師なし学習は正解ラベルがない状況下で、データの構造や潜在パターンを発見することを目的とします。ビジネスや研究の現場では、未知のデータのグループ化、次元圧縮、潜在因子の抽出など、多岐にわたる応用があります。

1. 教師なし学習の特徴

ラベルが不要:ラベルのないデータでも学習可能

探索的アプローチ:データに潜むパターンや構造を自律的に発見

柔軟性:クラスタリングや次元削減など、分析目的に応じた手法を選択可能

2. 代表的な教師なし学習モデル

(1) クラスタリング

データを似たもの同士でグループ化する手法です。

K-means:データをK個のクラスタに分割。シンプルで高速だが、初期値に敏感

階層型クラスタリング:データ間の距離に基づき階層的にクラスタを構築

DBSCAN:密度に基づいてクラスタを検出。ノイズや異常値に強い

(2) 次元削減

高次元データを低次元に圧縮し、分析・可視化・特徴抽出を容易にします。

主成分分析(PCA):分散を最大化する方向にデータを射影

t-SNE / UMAP:非線形の関係を保持しながら低次元に可視化

(3) 潜在変数モデル

観測データの背後に潜む構造を説明する変数(潜在変数)を仮定して学習する手法です。

因子分析:観測変数を少数の潜在因子で説明

潜在ディリクレ配分(LDA):文書を潜在トピックに分類

3. 教師なし学習の評価

教師なし学習では正解ラベルがないため、評価方法も特殊です。

クラスタリングの指標:シルエット係数、ダビエス・ボウディン指数

次元削減の評価:再構成誤差、可視化の直感的評価

潜在変数モデルの適合度:対数尤度、情報量規準(AIC/BIC)

4. 実務上の考慮点

データの前処理(スケーリング、欠損値処理)が精度に直結

ハイパーパラメータ(クラスタ数K、密度閾値など)選定が結果を大きく左右

結果の解釈にはドメイン知識が必須

応用例

顧客セグメンテーション

教師なし学習を用いて、顧客の購買履歴や行動データを分析し、似た特徴を持つ顧客グループを抽出します。これにより、マーケティング戦略をグループごとに最適化できます。例えば、購入頻度や商品カテゴリの傾向から「高頻度購入顧客」「季節性購買顧客」「単発購入顧客」などを分類し、それぞれに異なるプロモーションを展開することで、ROIの向上が可能です。また、セグメンテーションは新規顧客のターゲティングやクロスセル施策にも活用されます。

商品レコメンドの類似グループ抽出

ECサイトや動画配信サービスでは、ユーザーや商品を教師なし学習でクラスタリングし、類似性の高いグループを作ります。商品間の類似性をもとに「この商品を買った人はこの商品も購入」などのレコメンドを実現できます。潜在変数モデルを使えば、ユーザーの明示されていない嗜好や関心を捉えることも可能です。実務では、クラスタ数や距離尺度の選択がレコメンド精度に直結します。

異常検知(製造ライン・セキュリティログ)

大量データの中から異常パターンを自動で検出するのも教師なし学習の強みです。製造ラインでは、センサー値や工程データを用いて、正常な運転パターンを学習し、逸脱した挙動を異常として検出します。セキュリティ領域では、ログイン履歴やアクセスパターンから不正アクセスや異常挙動を特定します。こうした応用では、異常サンプルが少ないため、教師なし学習でのパターン抽出が有効です。

文書や画像の自動分類

大量の文書や画像データに対して、教師なし学習で自動分類・クラスタリングを行うことで、管理や分析を効率化できます。文書の場合、ニュース記事や顧客レビューをトピック別に分類したり、類似内容の記事をまとめてアーカイブ化することが可能です。画像の場合、監視カメラの映像や医療画像をクラスタリングして、異常や特徴的なパターンを自動抽出できます。応用の幅は広く、コンテンツ管理、データ分析、異常検知など多岐にわたります。

5. まとめ

教師なし学習は、未知のパターン発見やデータ理解に不可欠です。

クラスタリング:似たデータをグループ化

次元削減:データを圧縮・可視化

潜在変数モデル:観測されない要因を仮定して構造を説明

これにより、回帰や分類では扱えない課題にも対応でき、実務でのデータ探索や意思決定に大きく貢献します。

参考文献

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.
URL: https://hastie.su.domains/ElemStatLearn/

MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability.
URL: https://projecteuclid.org/euclid.bsmsp/1200512992

Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. KDD.
URL: https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf

Tenenbaum, J. B., Silva, V. de, & Langford, J. C. (2000). A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500), 2319–2323.
URL: https://science.sciencemag.org/content/290/5500/2319

Van der Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research, 9, 2579–2605.
URL: https://www.jmlr.org/papers/v9/vandermaaten08a.html

Discussion