マイクロソフトにみるAIのバーティカルモデル例
はじめに
最近、ニュースでAGIという言葉をよく聞きます。
AGI(Artificial General Intelligence)への挑戦を宣言するOpenAI, Metaの話題が多いですね。これは、ありとあらゆるタスクを横断的にこなすホリゾンタル(水平)のアプローチかと思います。
一方、それを対となるアプローチとしてバーティカル(垂直)があります。特定の領域に特化したAIであり、それぞれの分野で高い精度と効率を発揮するというものです。それ以外にも領域を絞ることによってモデルサイズを小さくすることができるというメリットもあり、ここ最近はローカル端末で動作するサイズ感のモデルが次々とリリースされています。
そこで、本記事ではITの巨人であるマイクロソフトがここ数ヶ月でリリースしたバーティカルモデルを薄く覗いてみます。
バーティカルモデル例
[PC操作]OmniParser

アクセシビリティ支援やUIテスト自動化、対話型UIエージェントの画面理解強化のシナリオで使えるようなモデルです。スクリーンショット画像を構造化フォーマットに変換することが可能です。1.3Bぐらいのサイズです。
[医療]BiomedParse

病理組織画像からの興味領域の自動抽出、アノテーション支援のシナリオで使えるようなモデルです。複数のイメージングモダリティ(CT、MRI、X 線、超音波、病理画像など)を対象に、関節や臓器などのセグメンテーション・検出・認識を一度に学習・実行がE2Eで可能です。8Bぐらいのサイズです。
また、医療関係のモデルの多くに共通する事項として、「臨床診療に使用することを意図したものではありません。」という文言が付記されている点は注意です。将来的には診療診断に使えるようものかなと思います。
[医療]Rad-DINO
医用画像に対してラベルなしの異常候補検出を教師データを自動生成しながら実現するモデルです。DINOv2ベースの500Mパラメータ級のモデルで、研究用途での医用関連異常検出シナリオに活用できます。アーキを見るとモデルの単体利用ではなくbackboneとしての活用も目論まれていそうです。

[ビデオ]VidTok
映像データを言語モデルと親和性の高いトークン系列に変換し、LSTM/Transformer系LLMと組み合わせることでビデオ要約や検索、質問応答を可能にする1.2Bパラメータ級の映像トークナイザーモデルです。あくまでトークナイザーモデルとのことです。
余談ですが、動画の品質評価ではPSNRだけでなくSSIM, LPIPS, FVDという指標が用いられることを知りました。より人間知覚に近い評価が可能とのこと。
[医療]RadEdit
医用画像上の任意領域をテキストプロンプトで自在に加工可能なモデルです。800Mパラメータ級の画像編集モデルで、診断トレーニングやシミュレーション用途向けとのことです。
例えばインフルエンザ患者のX線画像とマスクから異常のないX線画像を生成できるとのこと。
入力

プロンプト
prompt = 'No acute cardiopulmonary process'
出力

[材料開発]MatterGen
無機材料を生成する拡散モデルです。特定の物性(バルクモジュラス、磁気密度、バンドギャップなど)をモデルに条件として学習させることで、その物性を持つ材料構造を直接生成できるそうです。
800Mパラメータ級のモデルです。

[ゲーム]WHAM
ゲームプレイ生成を行うモデルです。ゲームのビジュアルやコントローラアクションの初期値を入力として次フレームでのそれらを予測するよう学習された自己回帰型モデルであり、いくつかの使い方ができるようです。1)コントローラアクションによる次フレームのビジュアル生成、2)ビジュアルによる次フレームのコントローラアクション生成、3)ビジュアルとコントローラアクションの両方の生成。ゲーム開発時のテストプレイやコンテンツアイデア支援などに使えそうです。


かんそう
Transformerが基幹となり、自己回帰・拡散モデルが様々な領域へ進出しようとしています。ここで紹介したモデルのほとんどはSLMであり、比較的ローカル環境で動作しやすいサイズ感というのも驚愕です。AIのバーティカル(しかもローカル)はまさに発展途上と感じます。
他にも調査したモデルがいくつかあるので続編書こうと思います。
Discussion