🐗
[1min read] Visual ChatGPT
※あくまで個人の見解のメモです。 事実と異なる場合もあります。
Visual ChatGPT とは
ChatGPTを活用して、Visual処理もできるようにしたもの。
- LanguageとVisionの新しいモデルの学習などが必要ではなく、既存のモデルを活用している。(パイプライン構築的な)
- 会話ベースで (ユーザー)画像作って→(AI)作ったよ→(ユ)画像の中のXX変えて→(AI)変えたよ という流れを永遠に続けられる。 画像の生成と編集が続けて可能。 (論文Fig.4の会話の様子を見る限り、かなり画像の要求に応えられている。)
- ユーザーが入力したタスクが複雑なら分解して、小タスクに対して、画像のFoundationModel(VFM)を順次適用していく。
- プロンプトマネージャーというもので、プロンプト入出力の制御(というかサポートというか)をしている。
- 会話の中で画像が多く生成・使用されるので、ChatGPTが間違わないようにファイル名称を固有IDになるように工夫している。
- GithubのデモはCPUでも動作可能。(ただし、遅い&OpenAI APIのキーが必要)
Discussion