🖼️

日本語画像言語モデル「Japanese InstructBLIP Alpha」をGoogle Colabで動かしてみました

2023/08/23に公開

Japanese InstructBLIP Alpha

画像生成AI「Stable Diffusion」で有名なStability AIがリリースした、日本語向け画像言語モデルが「Japanese InstructBLIP Alpha」です。

https://ja.stability.ai/blog/japanese-instructblip-alpha

用途は研究目的に限定されているようです。

「Japanese InstructBLIP Alpha」は研究目的で作成されたモデルであり、研究目的での利用に限定した公開となります。詳細は Hugging Face Hub のページをご確認ください。

というわけで研究目的(?)で触ってみます。

デモアプリを作る

既に偉大な先人(おなじみの方々)がやってらっしゃいました。

https://note.com/npaka/n/n371e25987267

https://nowokay.hatenablog.com/entry/2023/08/21/124330

公式+これらの先人のコードを参考に、Google Colabで簡単に試せるノートブックを作ってみました。GradioというWeb UIのPythonライブラリを使っています。

009_japanese_instruct_blip_alpha.ipynb

Google Colabは多分課金が必要で、A100というGPUを選択して動かしています(CPUやV100ではダメでした)。

ノートブックを最後まで実行して、表示されるURLをクリックすると、デモ画面が表示されます。

画像をドラッグ&ドロップして、質問すると画像について教えてくれます。

テスト結果

デフォルト(空欄)で質問すると、画像に対して詳しく説明してくれます

画像について質問すると答えてくれます

まとめ

性能高くて色々使えそうです。研究用途限定なのがちょっと残念ですね。

Google Colabだとモデルダウンロードの時間がストレスなので、ほんとうはローカルで動かしたいのですが、ちょっと我が家のRTX 3060だとメモリ的に厳しそうですね。

小さくて商用可能なモデルが出てきたら、色々使い道広がりそうです。

009_japanese_instruct_blip_alpha.ipynb

関連記事

https://zenn.dev/karaage0703/articles/0a4cd88faf7819

https://zenn.dev/karaage0703/articles/2866e23dd4fcd1

https://zenn.dev/karaage0703/articles/bf86fe4946417b

Discussion