🤖

Multimodal-GPTを触ってみた

toky

2023/09/04に公開

最近流行りのマルチモーダルを少し経験してみようと思い、視覚的および言語的な指示を使ったマルチモーダルチャットボットを実際に動かそうと思います!!

Setup

とりあえずドキュメントの通り行いました!!
pythonで実行する場合

git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .

condaで実行する場合

conda env create -f environment.yml

ローカル環境で実行
色々ダウンロードして下記のような構造を作成します。

checkpoints
├── llama-7b_hf
│   ├── config.json
│   ├── pytorch_model-00001-of-00002.bin
│   ├── ......
│   └── tokenizer.model
├── OpenFlamingo-9B
│   └──checkpoint.pt
├──mmgpt-lora-v0-release.pt

まずは、llsms-7b_hfの関連からダウンロードします。下記のコマンドを入力するとダウンロードできると思います。ダウンロードにはしばらく時間を要します!!

# if you don't have git-lfs
git lfs install

cd ~/Multimodal-GPT/checkpoints
git clone https://huggingface.co/decapoda-research/llama-7b-hf
mv llama-7b-hf/ llsms-7b_hf/

次に、OpenFlamingo-9Bをダウンロードします。方法は以下を入力してください。

git clone https://huggingface.co/openflamingo/OpenFlamingo-9B-deprecated

もしダウンロードがうまく行かない場合は、

git clone <URL>
GIT_LFS_SKIP_SMUDGE=1

git lfs fetch
git lfs pull

を実行してください。ただし、親ディレクトリに.gitがある場合エラーが発生するため、親ディレクトリ外でやるか、親ディレクトリの.gitを消してから実行してください。

最後に、mmgpt-lora-v0-release.ptをダウンロードします。こちらは、直接ダウンロードするためここをクリックして、上記の構造になるように移動させてください。

動かしてみた

起動方法は以下のコマンドを実行します。

cd ~/Multimodal-GPT
python ./app.py

これで以下のようなものが表示されれば問題ありません。 success
実際に生成されたLinkに移動してみます。 WebImage
実際の挙動　例
アメリカの町並みを入れてみて、この画像には何が写っているのか？と聞いてみると...
Q&A Image

実際動かしてみると、とても面白かったです。トレーニング次第で結果が変わるので、何か使えることがあったら色々触ってみようと思います。

岐阜大学アレックス研究室Publication

岐阜大学工学部電気電子・情報工学科(情報コース)　自動運転の研究しています。

Setup

動かしてみた

Discussion