Word2Vecとは
はじめに
この記事では、書籍「BERTによる自然言語処理入門」を参考に、単語の分散表現を学習する代表的な手法である Word2Vec について学んだ内容をまとめます。BertなどのWord2Vecよりも新しい技術については、記事「【図解】BERTの仕組みと進化の流れ:Attention・Transformerから理解する」でまとめていますので、そちらもぜひ参考にしてください。
1. Word2Vecとは

Word2Vecは、単語を文脈に依存しない固定のベクトル(分散表現)に変換するモデルです。BERTのように文脈ごとに変化する表現(文脈依存表現)とは対照的に、Word2Vecでは単語ごとに一意のベクトルが割り当てられます。学習で得られるベクトルには以下の特徴があります。
- 単語間の意味的な近さをベクトル空間上の距離として表現できる
- 数学的な演算が意味的な関係に対応する(加法構成性)
例:
v(日本)-v(東京)≒v(フランス)-v(パリ)
v(日本)+v(首都)≒v(東京)
つまり「同じ意味・用法を持つ単語は似た文脈に現れる」という前提に基づいて、単語を数値ベクトルとして学習するのです。結果として、意味が近い単語同士は空間的に近く配置され、コサイン類似度も高くなります。
2. メリットとデメリット
Word2Vecの大きな特徴は、シンプルかつ軽量なモデルであることです。そのため、高性能な計算環境がなくても、比較的短時間で学習や推論を行うことができます。研究や学習用途だけでなく、リソースの限られた実務環境や小規模なシステムに導入できる点はメリットです。

一方で、Word2Vecには限界もあります。まず、学習時に存在しなかった未知の単語は扱えず、ベクトルを割り当てることができません。また、同じ単語でも文脈によって意味が変わる多義語に対応できないため、正確な意味理解が必要な場面では誤解を招くことがあります。さらに、Word2Vecは単語を「袋(Bag of Words)」として扱うため、語順や文の構造を反映できず、長文の意味を理解するのが苦手です。

つまり、軽快さとシンプルさの裏返しとして、表現力や柔軟性に制約があるのです。
3. 2つの学習手法
Word2Vecの学習方法には、周りの言葉から意味を学ぶ「CBoW」と、単語から文章を学ぶ「Skip-gram」があります。

それぞれの学習方法の特徴は、以下の通りです。
| 特徴 | CBoW | Skip-gram |
|---|---|---|
| 学習速度 | 速い | 遅い |
| 有効な場面 | 大量のコーパス(文章)がある時 | データが少ない時・出現頻度が 低い言葉に対応したい時 |
4. 利用イメージ
Word2Vecを利用する際は、分割した単語群をモデルに学習させます。学習済みモデルを用いることで、単語間の類似度計算やクラスタリングなど、自然言語処理の基盤として活用できます。

具体的な実装については、以下の記事が分かりやすかったです。
おわりに
Word2Vecは登場から時間が経っている技術ですが、自然言語処理の基礎を理解するうえで今でも重要な存在です。BERTやGPTといった最新のモデルを理解するためにも、まずはシンプルでありながら応用範囲の広いWord2Vecを通じて「単語を数値化し、意味の近さを計算できるようにする」という発想に触れておくことは価値があると思います。
Discussion