🐹
AI・機械学習入門④教師なし学習モデルの基礎

Kenji
2025/10/30に公開
機械学習
idea
 教師なし学習モデルの基礎
 はじめに前回までの記事では、教師あり学習に分類される回帰・分類モデルを中心に解説しました。

https://zenn.dev/knowledgelabo/articles/fee07c8c1fdd43

https://zenn.dev/knowledgelabo/articles/f9f03c87db818d

https://zenn.dev/knowledgelabo/articles/c42838304c3161
今回は、ラベルが与えられていないデータから学習する教師なし学習について扱います。
教師なし学習は正解ラベルがない状況下で、データの構造や潜在パターンを発見することを目的とします。ビジネスや研究の現場では、未知のデータのグループ化、次元圧縮、潜在因子の抽出など、多岐にわたる応用があります。

 1. 教師なし学習の特徴ラベルが不要：ラベルのないデータでも学習可能
探索的アプローチ：データに潜むパターンや構造を自律的に発見
柔軟性：クラスタリングや次元削減など、分析目的に応じた手法を選択可能

 2. 代表的な教師なし学習モデル(1) クラスタリング
データを似たもの同士でグループ化する手法です。
K-means：データをK個のクラスタに分割。シンプルで高速だが、初期値に敏感
階層型クラスタリング：データ間の距離に基づき階層的にクラスタを構築
DBSCAN：密度に基づいてクラスタを検出。ノイズや異常値に強い
(2) 次元削減
高次元データを低次元に圧縮し、分析・可視化・特徴抽出を容易にします。
主成分分析（PCA）：分散を最大化する方向にデータを射影
t-SNE / UMAP：非線形の関係を保持しながら低次元に可視化
(3) 潜在変数モデル
観測データの背後に潜む構造を説明する変数（潜在変数）を仮定して学習する手法です。
因子分析：観測変数を少数の潜在因子で説明
潜在ディリクレ配分（LDA）：文書を潜在トピックに分類

 3. 教師なし学習の評価教師なし学習では正解ラベルがないため、評価方法も特殊です。
クラスタリングの指標：シルエット係数、ダビエス・ボウディン指数
次元削減の評価：再構成誤差、可視化の直感的評価
潜在変数モデルの適合度：対数尤度、情報量規準（AIC/BIC）

 4. 実務上の考慮点データの前処理（スケーリング、欠損値処理）が精度に直結
ハイパーパラメータ（クラスタ数K、密度閾値など）選定が結果を大きく左右
結果の解釈にはドメイン知識が必須

 応用例顧客セグメンテーション
教師なし学習を用いて、顧客の購買履歴や行動データを分析し、似た特徴を持つ顧客グループを抽出します。これにより、マーケティング戦略をグループごとに最適化できます。例えば、購入頻度や商品カテゴリの傾向から「高頻度購入顧客」「季節性購買顧客」「単発購入顧客」などを分類し、それぞれに異なるプロモーションを展開することで、ROIの向上が可能です。また、セグメンテーションは新規顧客のターゲティングやクロスセル施策にも活用されます。
商品レコメンドの類似グループ抽出
ECサイトや動画配信サービスでは、ユーザーや商品を教師なし学習でクラスタリングし、類似性の高いグループを作ります。商品間の類似性をもとに「この商品を買った人はこの商品も購入」などのレコメンドを実現できます。潜在変数モデルを使えば、ユーザーの明示されていない嗜好や関心を捉えることも可能です。実務では、クラスタ数や距離尺度の選択がレコメンド精度に直結します。
異常検知（製造ライン・セキュリティログ）
大量データの中から異常パターンを自動で検出するのも教師なし学習の強みです。製造ラインでは、センサー値や工程データを用いて、正常な運転パターンを学習し、逸脱した挙動を異常として検出します。セキュリティ領域では、ログイン履歴やアクセスパターンから不正アクセスや異常挙動を特定します。こうした応用では、異常サンプルが少ないため、教師なし学習でのパターン抽出が有効です。
文書や画像の自動分類
大量の文書や画像データに対して、教師なし学習で自動分類・クラスタリングを行うことで、管理や分析を効率化できます。文書の場合、ニュース記事や顧客レビューをトピック別に分類したり、類似内容の記事をまとめてアーカイブ化することが可能です。画像の場合、監視カメラの映像や医療画像をクラスタリングして、異常や特徴的なパターンを自動抽出できます。応用の幅は広く、コンテンツ管理、データ分析、異常検知など多岐にわたります。

 5. まとめ教師なし学習は、未知のパターン発見やデータ理解に不可欠です。
クラスタリング：似たデータをグループ化
次元削減：データを圧縮・可視化
潜在変数モデル：観測されない要因を仮定して構造を説明
これにより、回帰や分類では扱えない課題にも対応でき、実務でのデータ探索や意思決定に大きく貢献します。

 参考文献Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.

URL: https://hastie.su.domains/ElemStatLearn/
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability.

URL: https://projecteuclid.org/euclid.bsmsp/1200512992
Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. KDD.

URL: https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf
Tenenbaum, J. B., Silva, V. de, & Langford, J. C. (2000). A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500), 2319–2323.

URL: https://science.sciencemag.org/content/290/5500/2319
Van der Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research, 9, 2579–2605.

URL: https://www.jmlr.org/papers/v9/vandermaaten08a.html
株式会社ナレッジラボテックブログPublication
教師なし学習モデルの基礎

はじめに

1. 教師なし学習の特徴

2. 代表的な教師なし学習モデル

3. 教師なし学習の評価

4. 実務上の考慮点

応用例

5. まとめ

参考文献

Discussion