⛳
Florence-2をHugging Face上で触ってみる
参考記事
Florence-2とは?
Florence-2は、MicrosoftがMITライセンスの下でオープンソース化した軽量なvision-languageモデルです。このモデルは、captioning、object detection、grounding、およびsegmentationなどのタスクにおいて、強力なzero-shotおよびfine-tuningの能力を示しています。
手順
- 以下のURLを開く
-
サンプルの画像で物体検知してみる
-
Submit をクリックする
-
結果を確認する
-
サンプル画像でOCRをする
-
Submit をクリックする
-
結果を確認
- 以下の画像で物体検知をしてみる
※Yolo-worldでは、Kiwi fruitは検知できなかった
9. 結果を確認
- 以下の画像で物体検知してみる
※ベトナムの帰宅ラッシュ時の写真
- 結果を確認
まとめ
ゼロショットで物体検知やOCRができるのがやっぱりすごいなと思いました。
また、7.7Bと小型なのでJetsonなどのEdgeでも動かせるだろうなと。
今度は、Fine-tuingにも挑戦しようかなと思います。
Discussion