🏞️

DALL-EでZennのPublicationカバー写真を作って遊んでいたら、マルチモーダルなRAGの解釈にも気づきを得た

2024/02/03に公開

DALL-EでZennのPublicationカバー写真を作って遊んだら面白かった!

新しいテクノロジーにワクワクした感じを出したいなと思って、
いろいろプロンプトを打ってみたのですが、僕らが考え得ない感じの画像が出来て笑ったっす。

確かに、そうなんだけど!wって思わず突っ込みました。
ただ、逆に良くあるカバー写真みたいな感じじゃなくて、目立つのでアリかもと思いましたw


 ↑ これ結構好き

 ↑ これも、じわじわ来るのが良い

 ↑ こういう会社にしたい

 ↑ スーパーヒーロー好きなので好き

マルチモーダルなRAGについてちょうど勉強していた

この記事は結構分かりやすかった。
参考:Multi-Vector Retriever for RAG on tables, text, and images
https://blog.langchain.dev/semi-structured-multi-modal-rag/

DALL-Eのファイル名を見たらキャプションが付いてた

ファイル名がこんな感じになっていた

DALL·E 2024-02-03 13.09.07 - Create a dynamic and vibrant cover photo for a technology blog, inspired by the energetic style of superhero movies. This image should combine humor a

僕は普段プリセールスみたいなことだったり、
エンジニアの組織づくりをしているので、ガッツリとエンジニアリングはしていないのですが、
画像とキャプションのVectorストアを作って、RAGを組んでいる感じだろうなという気づきがあった。

Chat GPTの DALL-Eの場合は、生成された画像に「いいね!」とか「BAD」とか付けられるので、ファインチューニングとか Vectorストアを作る時に、その辺もうまく使っているんだろうなーと思った。

DALL-Eで作った画像の著作権は大丈夫なのか?

Copilotの回答
Copilotに聞いてみた

ただ、Azure AI Studioのプレイグラウンドで、
マーベルみたいな画像!と試しに作ってみたら、結構なマーベルっぽい感じのものが作成されてしまったので、ちゃんとポリシー設定しないとです。

試しに、ChatGPTの DALL-E でも試してみたら、マーベルのような画像は作れません!と言われました。

ヘッドウォータース

Discussion