Florence-2をHugging Face上で触ってみる

2024/07/06に公開

参考記事

https://arxiv.org/abs/2311.06242?ref=blog.roboflow.com

https://weel.co.jp/media/news/1678/

Florence-2とは?

Florence-2は、MicrosoftがMITライセンスの下でオープンソース化した軽量なvision-languageモデルです。このモデルは、captioning、object detection、grounding、およびsegmentationなどのタスクにおいて、強力なzero-shotおよびfine-tuningの能力を示しています。

手順

  1. 以下のURLを開く

https://huggingface.co/spaces/gokaygokay/Florence-2

  1. サンプルの画像で物体検知してみる

  2. Submit をクリックする

  3. 結果を確認する

  1. サンプル画像でOCRをする

  2. Submit をクリックする

  3. 結果を確認

  1. 以下の画像で物体検知をしてみる
    ※Yolo-worldでは、Kiwi fruitは検知できなかった

https://zenn.dev/headwaters/articles/6b44458832d6c3


9. 結果を確認

  1. 以下の画像で物体検知してみる
    ※ベトナムの帰宅ラッシュ時の写真
  2. 結果を確認

まとめ

ゼロショットで物体検知やOCRができるのがやっぱりすごいなと思いました。
また、7.7Bと小型なのでJetsonなどのEdgeでも動かせるだろうなと。
今度は、Fine-tuingにも挑戦しようかなと思います。

ヘッドウォータース

Discussion