生成AIを使って同義語辞書を作ってみた
1:はじめに
お世話になっております。ジーニーのサーチ事業部でPdMをしているyasuと申します。
私が所属している部署は、事業部の名前に「サーチ」とあるように検索エンジンやレコメンドエンジンの企画、開発、販売を実施しています。その中でも私は主に検索エンジンやレコメンドエンジンを活用した企画、お客様サイトに導入する際の技術的なフォロー、運用フェーズに入ったお客様に対して効果測定を行いサイトグロースに向けた課題の解消や提案を進めております。
今回寄稿させていただくことになりました、生成AIを使った特別な辞書であるAI辞書について、紹介させていただきます。こちらの元ネタは、お客様からいただいたお悩みとセールス部門やカスタマーサクセス部門からの要望があり、「どないすんねん」と検証と検討をしていた時、生成AIを活用して導くことができました。
この記事を読んで、生成AIを使用したAI辞書がどんなものか、どうして必要なのかを理解していただけるとありがたいです。
2:AI辞書って何?
AI辞書は、生成AIがたくさんの文章を読んで、言葉の意味や使い方を自分で学習していきます。そして、同じ意味の言葉や似た意味の言葉、省略された言葉などを理解して、辞書を生成します。
3:どうしてAI辞書が必要なの?
そもそもAI辞書を開発しましたが、なぜ辞書が必要なのかという前提をお話をいたします。
一例ではありますが、ネットショッピングで「食品」を探しているとき、実は「食料」という言葉で商品が登録されていることがあります。普通の検索では、「食品」と「食料」が同じ意味だと分からないから、欲しい商品が見つからないことが発生します。
しかし、AI辞書を使うと「食品」と「食料」が似た意味だと理解できるから、どちらの言葉で検索しても、欲しい商品を見つけることができます。つまり、AI辞書は、GENIEE SEARCHを導入いただいているお客様の検索をもっと便利にしてくれるプロダクトになります。
4:AI辞書は何をしてくれるの?
AI辞書は、主に検索の精度を向上するために使用いたします。具体的には、以下の3つの問題を解決してくれます。
1:検索結果のバラつきがなくなります。
同じ意味合いで違う言葉を使っても、いつも同じ検索結果が出るようになります。
AI辞書が言葉のバリエーションを補ってくれるから、効率よく探している商品や情報にたどり着けて、検索機能に対する安心感を高めることができます。
2:探しているものが見つかりやすくなります(検索ゼロ件ヒット率の削減)
例えばですが、「アイスクリーム」を探しているときに「ジェラート」と検索しても、AI辞書はこの2つが似た意味だと判断するためどちらの文字列を持つ商品も検索結果として表示することができます。
これにより、探している商品を見つけやすくなり、商品を買う機会やお客様の満足度がアップします。
3:仕事が楽になる:
辞書の基データとなる、自動で似た意味の言葉を生成AIが構築してくれるため、サイト運営者の手作業による登録や修正する時間が大幅に削減できます。意外と辞書の作成や辞書データを紐づける登録作業。登録した後に修正をする辞書のメンテナンスに時間がかかることも、お客様からいただいた課題になっていましたので、これらの負担を少なくし効率よく業務に携わることができるよう、AI辞書の設計には注意を払いました。
5:AI辞書をどうやって作るの?
この辺りから皆様の興味が出てくると嬉しいのですが、AI辞書は、生成AIがたくさんのテキストデータから自動的に学習して、似た意味の言葉や関連する言葉を見つけ出して生成しています。AI辞書を生成する工程として、「データ集め」、「生成AIで分析」、「似た意味の言葉の辞書を生成」、「辞書を適用して効果を計測」という大きく4つの工程を循環させて辞書の生成をしております。
少し踏み込んだ話をすると、これら4つの工程に対して、Difyが採用しているワークフロー機能を参考に、このAI辞書で処理をするよう開発を行いました。4つのブロックは、Dify上で説明している表現を用いると、「知識の習得」、「質問の分類」、「LLM」&「イテレーション」、「LLM」&「変数集約」&「質問の分類」&「テンプレート」という工程を経て情報の入力から出力までを実施しています。各工程を生成AIで進行させ、工程ごとに使用しているLLMのモデルやロジックに工夫を入れて、AI辞書を出力するよう調整いたしました。
1:データ集め:
生成AIは、お客様のウェブサイト。もしくはお客様から提供いただいた商品データをデータソースにして収集します。
過去の検索記録や検索しても見つからなかったキーワードも大切なデータとして使用します。
2:AIが分析:
集めたデータを詳しく調べて、どんな言葉がよく使われているのか。また言葉と言葉のつながりを生成AIで分析を行います。生成AIでは「自然言語処理」という技術を使って、文章の意味を理解し、言葉のニュアンスを捉えます。
3:似た意味の言葉の辞書を生成:
生成AIは分析結果をもとに、同じ意味、似た意味、省略された言葉、外来語、など言葉の候補をリストアップします。
内容によっては、生成AI側で言葉の意味をとらえていても適切でないケースが発生します。このケースが発生したときは、人が確認し必要な修正を行って、出力する辞書の精度を高めます。
4:辞書を適用して効果を計測:
工程3で生成したAI辞書は、情報を集約して言葉を生成するまでであって、評価された内容になっていません。
作った辞書が本当に役立つかどうかを確かめるため、実際の検索システムで試して効果を測定します。検索結果がちゃんと出るか、探しているものが見つかりやすくなったかをチェックして、良い結果が出た言葉だけを辞書に掲載するようにしています。
6:AI辞書を使うとどんないいことがあるの?
AI辞書を使うと、お客様サイトを利用するユーザ(以降は、「利用ユーザ」と記載)とプロダクトを導入いただいたお客様(以降は「お客様」と記載)の両方にうれしいことが発生します。
まず、利用ユーザにとっては、欲しい商品がもっと見つけやすくなります。例えば、「スニーカー」で検索しても「運動靴」で登録されている商品も一緒に表示されるから、探しているものを簡単に見つけることができるようになります。
またお客様にとっても、利用ユーザがお客様の運営サイトで商品を見つけやすくなるので、売り上げが増える可能性が見込めます。さらに、生成AIが自動で似た意味の言葉を探し、登録してくれるため、お客様が手作業で辞書を作る時間も削減することができます。
この結果が成立すると、ジーニーが提供しているプロダクトに対する満足度も向上するので、「近江商人の三方よし」が成立します。
7:まとめ
AI辞書は、GENIEE SEARCHをAIの力で便利にする新しい技術です。検索機能は昔からありましたが、生成AIの力を加えることで、より使いやすく、見つけやすい検索体験を提供することができます。
私たちは、「どないすんねん」というお客様の声に耳を傾けながら、AI辞書をはじめとしたGENIEE SEARCHプロダクトをさらに改良していき、多くの人にさらに便利な体験価値を提供できるプロダクトを作っていきたいと考えています。
ここまでお読みいただきありがとうございます。
Discussion