VLMはイラストを異常に褒めるメモ

普段はVLMにスクリーンショットとか写真を見せてるわけだけど、自分のイラストを読ませてみると各社のモデルがどれも異常に褒める傾向にある事に気付いた。
... まぁ人間でもイラストの改善点を適切に指摘するのは難しい事だけど、これが今だけの現象なのか半年とか一年で変わることなのかは気になるところ。
プロンプト
画像を一枚貼って:
- この画像をできるだけ詳細に説明して
- イラストの評価はいかがですか?
と聞くことで、イラストの内容の理解を確認してから評価を聞いている。 英語でも大きく内容が異なることは無かったと思う 明示的にアドバイスを求めるプロンプトは英語でないと機能しなかった。ただ継続して検証が必要かも。元絵はこれ用に描いた https://x.com/dotmjt/status/1939364281725956192 。
全体的な傾向として、VLMは水彩画やグラデーションのようなある程度意味のあるテクスチャを好むのでそれを明示的に入れている。

ChatGPT
- キャラクター年齢感の言及なし
- 背景の奥行きのみ指摘 -- これは各社共通傾向
殆んどの項目に★5を与えている。評価がもっとも詳細になった。
英語のプロンプトだと書き直しを提案してきた。
背景は森の方が良いのか!
...というか同じような事は過去にトライしたけど、ここまで上手くいくことは無かったな。。そしてキャラクター説明では帽子に犬耳が付いているという評価だったのに、描き直させたイラストではうさ耳になっている。(そして解剖学をやれと言うわりには出てくる絵も言うほど正確ではない -- まぁ元が悪いんだけど)

Claude
- キャラクター年齢感の言及なし
- 指摘事項なし
Claudeは唯一コーディネートを褒めた。

Copilot
- キャラクター年齢感の言及なし
- 指摘事項なし
Pixivにアップロードしろとまで言ってくるのか。。

Qwen2.5
ローカルで実行(LM StudioのGGUF Vulkan)。各社モデルでは唯一中立的な評価を出力した。
この画像は、かわいいアニメ風のキャラクターが描かれています。彼女はピンクと青の髪を持ち、大きな赤い目をしており、黄色い帽子をかぶっています。彼女の服は、白いシャツに緑色のショートパンツで構成されています。彼女は赤いポルカドットのバッグを持っており、その上には「LOVE」という文字が書かれています。
背景は、青と黄色のグラデーションで描かれており、遠くに白いビルが見えます。キャラクターは右足を前方に伸ばし、左足を後ろに引いて歩いているように見えます。彼女の表情は明るく、元気そうに見えます。
全体的に、この画像は明るく楽しい雰囲気を持ち、キャラクターが自由で活発な印象を与えます。
足の左右を間違えていたり(ただし、左右を指摘した全てのモデルで右足を前という記述がある)、LOVEを幻視したりしている。
このイラストは、色彩と線の使い方が特徴的です。キャラクターの表情やポーズから、彼女が元気で明るい性格であることが伝わります。背景の色使いも柔らかく、全体的に和やかな雰囲気を作り出しています。
ただし、このイラストは主に子供向けのスタイルであり、より詳細な描写や複雑な背景を含む場合、その表現力が限界に達する可能性があります。また、キャラクターの動きやポーズについては、より自然で流れるような動きを描くことが求められるかもしれません。
全体として、このイラストは明るく楽しい印象を与え、子供たちにとって魅力的なものであると感じます。ただし、より複雑な表現力や詳細な描写が必要な場合、他のスタイルや技法を試すことを考慮することも大切です。
テストしたVLMでは 唯一 低年齢向けと指摘した。 (EDIT: Gemma3 12Bでも指摘された)

Gemini と Gemma3
Gemini 2.5 Flashの出力とGemma3 4B、12B の出力は殆ど同じで:
他と比べてかなり特徴的な出力になっている。例えばキャラクターの年齢感(4Bを含め全て):
性別: 女の子
年齢: 小さい(幼児~小学校低学年くらい)
4Bでは指摘されなかったが、12BとGeminiは うさ耳を指摘:
可愛らしさ: キャラクターデザインが非常に可愛らしく、特に大きな目とウサギ耳の帽子が魅力的です。子供向けのイラストやグッズに向いているでしょう。
そして全てのモデルで立体感を指摘してきた。
影の表現: 影は存在しますが、もう少し深みを出すことで、立体感をさらに高めることができるかもしれません。
背景の奥行き: 背景がやや薄いため、奥行きを強調することで、イラスト全体の印象がより豊かになる可能性があります。
正直4Bの規模のモデルで12Bのモデルと一貫性のある指摘をすることにはちょっと衝撃を受けた。VLMをローカル処理するアーキテクチャはあまり想定に無かったけど、検討する価値があるかも。

Mistral
... このプロンプトでは適切な応答を引き出せなかった。
英語のプロンプトで、かつ、アドバイスを要求すると求める出力になった。出力はQwenよりもさらに中立的。
ローカルで動かすMistral Smallとはかなり傾向が違うのが気になる。