AIによる商品説明文生成:よい商品説明文とは何か?
背景
弊社(ECサイト)には商品の説明文がないので入れたい
- キャッチコピーを見せたい
- 曖昧検索をしたい
そこで、AIによる商品説明文生成をやってみる
LLM/VLMによる商品説明文生成
説明文生成のインプットを何にするか?→下記の3つでそれぞれやってみる
- 商品名から生成(=モデルの知識だけで生成)
- 商品画像から生成
- Web検索結果から生成
この商品で説明文生成をする

1. 商品名から生成(=モデルの知識から生成)
ASICS Gel-Lyte III “Dragon Fruit” は、南国フルーツを思わせる鮮やかなカラーリングが魅力の一足。鮮烈なピンクとグリーンを基調に、スエードとメッシュを組み合わせたアッパーが個性を際立たせます。アイコニックなスプリットタン構造と軽量ミッドソールにより、快適な履き心地を実現。カジュアルからストリートスタイルまで、足元に鮮やかなアクセントを加えてくれるモデルです。
2. 商品画像から生成
鮮やかなカラーリングが目を引く ASICS GEL-LYTE III "Dragon Fruit"。 パステル調のターコイズ、ピンク、ラベンダーを大胆に組み合わせ、ストリートでも映えるポップなデザインに仕上げられています。90年代を思わせるレトロな雰囲気と、現代的な履き心地を融合した一足です。
3. Web検索結果から生成
ASICS Gel‑Lyte III "Dragon Fruit"は、鮮やかなピンクベースにティールとピンクのスエードオーバーレイを施した、30年記念カラー。レザーとメッシュの組み合わせで軽量かつ通気性が高く、フレキシブルなアウトソールとGELミッドソールでランニング時の衝撃吸収を実現。価格は約110 USD。日常からランニングまで幅広く活躍する、シンプルで鮮烈なデザインが魅力のスニーカーです。
ここまでの感想
- どれも結構アリな気がする
- けど、「どこがどう良いのか?」「本当に全部上手くいくのか?」をもっと知りたい
- ということで、LLMの生成した文章の良し悪しを評価する技法を調査してみる
LLMが生成する文章の評価技法の紹介
現代的なアプローチ
- 様々な観点で正解のある問題を解かせて正解率を評価する(Jaster, etc.)
- 人間が評価する(LM Arena, etc.)
- AIが評価する(LLM as a judge)(MT-Bench, etc.)
よって、ルールベースではなくなっている。一方で、これらから特徴抽出した研究もある
特徴抽出した研究
ある文章が「良い」と評価されるかは以下のような観点から評価される傾向がある[1][2][3]
- 正確性: 事実に反する内容がないか
- 関連性: 質問に対して関連した内容であるか
- 一貫性: 一貫した文章となっているか
- 流暢さ: 語彙や文法が適切か
- 完全性: 必要な情報を網羅できているか
- 安全性: 不適切な発言がないか
どれも概ね納得がいく観点である。それを使って実際に文章を読んでみる
[1] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
[2] Are LLM Judges Fair? Evaluating and Mitigating Position Bias
[3] Understanding Human Preferences in LLM Evaluation
では実際に評価してみる
1. 商品名から生成(=モデルの知識から生成)
いい例: GPT5
ASICS Gel-Lyte III “Dragon Fruit” は、南国フルーツを思わせる鮮やかなカラーリングが魅力の一足。鮮烈なピンクとグリーンを基調に、スエードとメッシュを組み合わせたアッパーが個性を際立たせます。アイコニックなスプリットタン構造と軽量ミッドソールにより、快適な履き心地を実現。カジュアルからストリートスタイルまで、足元に鮮やかなアクセントを加えてくれるモデルです。
ビミョウな例: Claude 3.5 Haiku
エレガントでありながら遊び心溢れるデザイン。柔らかいピンクとグレーのカラーリングが、フルーティーな「ドラゴンフルーツ」からインスピレーションを得た、夏にぴったりなスニーカー。クラシックなGel-Lyte IIIのシルエットに、モダンでフレッシュな色彩を纏わせ、スポーティさとファッショナブルさを見事に融合させています。心地よいクッション性と洗練されたルックスが、日常のスタイリングに彩りを加えます。
- 正確性:悪い例はグレーと言っており間違っている(ドラゴンフルーツに引っ張られている説)
- 完全性:いい例には「スプリットタン構造」「スエードとメッシュ」のような具体的なキーワードがあるが、悪い例にはなく、ふわっとした説明になっている
総評: 商品名のみから説明文を生成させるのは、モデルの学習セットに含まれていれば有効だが、モデルに強く依存するので品質はブラックボックス。当然、新発売の商品の情報は取ってこれない。
2. 商品画像から生成
いい例: Claude 4 Sonnet
鮮やかなカラーリングが目を引く ASICS GEL-LYTE III "Dragon Fruit"。 パステル調のターコイズ、ピンク、ラベンダーを大胆に組み合わせ、ストリートでも映えるポップなデザインに仕上げられています。90年代を思わせるレトロな雰囲気と、現代的な履き心地を融合した一足です。
- 正確性: 配色の説明は当然正確性が高い。
- 完全性: 使われている色やシチュエーションを網羅している。
- 流暢さ: 「90年代」「レトロ」といった、画像から想起されるかつアパレルでよく使われるキーワードが付与される。
いくつかのモデルで試してみたが、VLMはLLMに比べてもある程度モデルの性能が高めでないとまともな文章を出力することができない。また、あまり特徴のない見た目の服(例えば黒のパンツなど)は、流暢さ・完全性は低下する。
総評: 見た目から想起される説明文を書ける。曖昧検索では強みを発揮しそうに思う。ただし、品質が商品に依存する傾向がある。
3. Web検索結果から生成
※内部的には LangChain + gpt-oss(20B) + Tavilyを使ったワークフローで生成している
ASICS Gel‑Lyte III "Dragon Fruit"は、鮮やかなピンクベースにティールとピンクのスエードオーバーレイを施した、30年記念カラー。レザーとメッシュの組み合わせで軽量かつ通気性が高く、フレキシブルなアウトソールとGELミッドソールでランニング時の衝撃吸収を実現。価格は約110 USD。日常からランニングまで幅広く活躍する、シンプルで鮮烈なデザインが魅力のスニーカーです。
- 完全性: 「30年記念」「GELミッドソール」など、商品の実際の用語が記載される
- 流暢さ: 高い。キャッチコピーが近い形で使われていると思われる
- 安全性: 価格(110USD)が記載されているが、これは今回のケースではノイズである
総評: 商品固有の知識を含めることができる。ただしノイズが含まれるリスクがあり、実用するにはフィルタリングが求められる。
まとめ: 複数情報を組み合わせ + 可能なら専門家も参加がベター
- 商品名から生成(=モデルの知識から生成)
- モデルの学習セットに含まれていれば有効だが、モデルに強く依存するので品質はブラックボックスである。当然、新発売の商品の情報は取ってこれない。
- 商品画像から生成
- 見た目の特徴や、そこから想起される雰囲気を言語化できる。ただし品質は商品に依存する(見た目に特徴がある商品には有効)
- 検索結果から生成
- 商品固有の知識を含めることができる。ただしノイズが含まれるリスクがあり、実用するにはフィルタリングが求められる
- ここからの学び
- 商品名+商品画像+検索結果などなど、マルチモーダルな情報をインプットにして作った説明文をLLMもしくは専門知識を持った人間(Domain Expert!)が改めてレビューできるのがベストである
株式会社SODAの開発組織がお届けするZenn Publicationです。 是非Entrance Bookもご覧ください! → recruit.soda-inc.jp/engineer
Discussion