ヘッドウォータース

⛳

Florence-2をHugging Face上で触ってみる

takekawa tomoki

2024/07/06に公開

参考記事

https://weel.co.jp/media/news/1678/

Florence-2とは？

Florence-2は、MicrosoftがMITライセンスの下でオープンソース化した軽量なvision-languageモデルです。このモデルは、captioning、object detection、grounding、およびsegmentationなどのタスクにおいて、強力なzero-shotおよびfine-tuningの能力を示しています。

手順

以下のURLを開く

サンプルの画像で物体検知してみる
Submit をクリックする
結果を確認する

サンプル画像でOCRをする
Submit をクリックする
結果を確認

以下の画像で物体検知をしてみる
※Yolo-worldでは、Kiwi fruitは検知できなかった

9. 結果を確認

以下の画像で物体検知してみる
※ベトナムの帰宅ラッシュ時の写真
結果を確認

まとめ

ゼロショットで物体検知やOCRができるのがやっぱりすごいなと思いました。
また、7.7Bと小型なのでJetsonなどのEdgeでも動かせるだろうなと。
今度は、Fine-tuingにも挑戦しようかなと思います。

ヘッドウォータース

株式会社ヘッドウォータースのテックブログです。 AIエージェント、生成AI、LLM、Azureのサービスや資格、IoT、XR系などData&AIとApp modernizeに関して幅広く投稿します！

Discussion