1人称の違いは意味ベクトルに影響する?
はじめに
筆者は文章の意味ベクトルというと、文章全体の意味を表していると認識しています。そのため、1人称(俺、僕、私)が違えども意味ベクトルに大きな変化はないのではないかと考えています。ただ、実際のところどの程度の違いがあるのかを定量的に把握していません。
本稿では、OpenAIのEmbeddingモデルであるtext-embedding-3-smallとtext-embedding-3-largeを用いて、1人称の違いによって意味ベクトルにどの程度の変化が現れるかを実験的に検証します。また、1人称のみの場合の意味ベクトルの類似度も比較します。
実験方法
実験データ
実験では、以下の3つの文章を用意しました。
- 俺は今日の晩ご飯にカレーを食べた。
- 僕は今日の晩ご飯にカレーを食べた。
- 私は今日の晩ご飯にカレーを食べた。
これらの文章は、1人称以外の部分はすべて同一になっています。
また、1人称のみの場合の意味ベクトルの類似度を比較するため、以下の3つの単語についても同様の処理を行いました。
- 俺
- 僕
- 私
実験手順
それぞれの文章についてtext-embedding-3-smallとtext-embedding-3-largeを用いて意味ベクトルを取得し、コサイン類似度を計算することで、1人称の違いによる意味ベクトルの変化を定量的に評価しました。
実験結果
text-embedding-3-smallを用いた場合の結果は以下の通りです。
文章の場合
- 「俺」と「僕」のコサイン類似度: 0.9590
- 「俺」と「私」のコサイン類似度: 0.9701
- 「僕」と「私」のコサイン類似度: 0.9369
1人称のみの場合
- 「俺」と「僕」のコサイン類似度: 0.6505
- 「俺」と「私」のコサイン類似度: 0.5768
- 「僕」と「私」のコサイン類似度: 0.5529
一方、text-embedding-3-largeを用いた場合の結果は以下の通りです。
文章の場合
- 「俺」と「僕」のコサイン類似度: 0.9733
- 「俺」と「私」のコサイン類似度: 0.9725
- 「僕」と「私」のコサイン類似度: 0.9683
1人称のみの場合
- 「俺」と「僕」のコサイン類似度: 0.6505
- 「俺」と「私」のコサイン類似度: 0.5768
- 「僕」と「私」のコサイン類似度: 0.5529
文章の場合、いずれのモデルにおいても1人称の違いによるコサイン類似度の差は0.03程度と非常に小さいのに対し、1人称のみの場合はコサイン類似度が0.55〜0.65程度と、文章の場合に比べて類似度が低いことがわかります。
結論
今回の実験により、OpenAIのEmbeddingモデルであるtext-embedding-3-smallとtext-embedding-3-largeを用いて文章全体の意味ベクトルを算出した場合、1人称の違いによる影響は非常に小さく、ほとんど無視できるレベルであることが明らかになりました。
一方で、1人称のみの意味ベクトルを比較した場合、その類似度は文章の場合に比べて低くなることがわかりました。このことから、1人称の違いは、文章全体の意味ベクトルからは推定が難しいものの、1人称単独では意味的な差異が現れることが示唆されます。
展望
今後、1人称の違いを考慮した意味ベクトルを算出するために、1人称と本文をそれぞれ分けて計算するアプローチが有効である可能性があります。これにより、文章全体の意味を保ちつつ、1人称の違いによる影響を含んだ意味ベクトルを得られるのではないかと考えられます。
また、今回の実験はごく限られた例での検証にとどまるため、より多様な文章や1人称表現を用いた大規模な実験を行うことで、より詳細な知見が得られると期待されます。さらに、他のEmbeddingモデルを用いた場合の結果との比較も、興味深い研究対象となると思います。
Discussion