🐗

[1min read] Visual ChatGPT

2023/03/14に公開約500字

※あくまで個人の見解のメモです。 事実と異なる場合もあります。

Visual ChatGPT とは

https://github.com/microsoft/visual-chatgpt

ChatGPTを活用して、Visual処理もできるようにしたもの。

  • LanguageとVisionの新しいモデルの学習などが必要ではなく、既存のモデルを活用している。(パイプライン構築的な)
  • 会話ベースで (ユーザー)画像作って→(AI)作ったよ→(ユ)画像の中のXX変えて→(AI)変えたよ という流れを永遠に続けられる。 画像の生成と編集が続けて可能。 (論文Fig.4の会話の様子を見る限り、かなり画像の要求に応えられている。)
  • ユーザーが入力したタスクが複雑なら分解して、小タスクに対して、画像のFoundationModel(VFM)を順次適用していく。
  • プロンプトマネージャーというもので、プロンプト入出力の制御(というかサポートというか)をしている。
  • 会話の中で画像が多く生成・使用されるので、ChatGPTが間違わないようにファイル名称を固有IDになるように工夫している。
  • GithubのデモはCPUでも動作可能。(ただし、遅い&OpenAI APIのキーが必要)

Discussion

ログインするとコメントできます