Open2024/06/27にコメント追加2

Apple Intelligence関連のメモ

Shuichi Tsutsumi

WWDC

Shuichi Tsutsumi

意見

Apple Intelligenceは圧巻。生成AIの扱い方についての正解を一発で出してきた感じだ。

結局、LLMはシームレスなUXの実現が至上命題。

Copilotとか言ってサイドバーにチャットを出しちゃうような貧相な想像力や、1Mのコンテキストウィンドウのようなカタログスペックを誇るメンタリティでは永遠にたどり着けない境地。

声を発することなくSiriが使えるようになるのは大きい。
今までSiriは一切使ってなかったのだが、それは音声依存だったから、というのが大きい。（カフェでMacを使ってるのに声を出して操作したい人がいるだろうか？）
それが今後はiPhoneでもMacでも "7am alarm" とタイプするだけで、意図を汲み取ってアラームをセットしてくれる。

アプリごとのApp Intentによる機能の宣言と、そこへのSiriからのディスパッチがうまくデザインされているため、アプリを検索して起動してタブを開いて編集ボタンを押して…といった面倒な手順を全てショートカットできる。

念のために補足しておくと、「文字を入力する」という部分が同じでも、これは汎用の言語モデルを使ったチャットUIとは根本的に異なる体験だ。汎用の言語モデルはQ&Aフォーマットのタスクに寄せてRLHFされているので、タスクの実行に寄せてファインチューンされているわけではない。

だから、Siriはチャットアプリではなく、真の意味で「パーソナル・エージェント」だと言える。AI for the rest of usという、Appleにとって重要な意味を持つスローガンを持ち出していることにも、社運を賭けた意気込みを感じる。

AirPods Pro経由でSiriを使うときにも、「〜から電話がかかっています。出ますか？」と聞かれたら、「いいえ」と音声で答えなければいけないのでは、オフィスや電車など、一日の大部分を過ごす場所で使いにくかった。

ところが首を横にふるジェスチャーだけで「いいえ」の意味になるなら、もうSiriを本格的に使う未来しか見えない。

2024年はSiriが実用的な意味で完成した年、として記憶されることになるのかもしれない。

今後、iOSアプリケーション開発者の間では、今後利用者が激増するであろうSiriから選ばれることを巡って「デバイス内SEO」よろしくApp Intentsの争奪戦が一気に始まるでしょう。tool use / function callingは、このモデルが正解だったんだなぁ。

デバイスのハードウェアからソフトウェアまで垂直統合されてないとできないプレイ。

AppleはEmbeddingという言葉を使わず「Semantic Index」という言い方をしている。
いつもEmbeddingって超イマイチなネーミングだよなぁ（日本語だと「埋め込み」でさらにイマイチ）、毎回説明がめんどくさいな、と思っていた。
古典的なMLの時代に、SVDベースで次元削減した成果物にLatent Semantic Indexing (LSI) という名前があてられてしまっていたために、NNで得られた密ベクトルに対しては別の名前が必要になり、苦心の末につけたのだろう。

技術詳細に踏み込むと、AppleのMLブログによればApple Intelligenceのローカル軽量~3bパラメータモデルとリモートPCCモデルの組み合わせはGoogle Gemma, Mistral Mixtral, Microsoft Phi, and Mosaic DBRXの大多数を一撃で葬り去ったと。

特筆すべきは、ローカルモデルでタスクに合わせた動的スワップが可能なLoRAアダプター層に2ビット/4ビット混合（平均3.5ビット/weight）量子化で、ほぼロスレスでの圧縮を実現している様子。こうした最適化の結果、time-to-first-token遅延はiPhone 15 Proでprompt tokenあたり0.6ms、生成は30 tokens/秒を実現。この超高性能を実現した手法のペーパーを公開している。

これはエージェント指向のローカルモデルを作っている勢には朗報だろう。一方、モデル単体の性能で勝負していないAppleの余裕を見せつけているとも感じる。

アプリを跨いでタスクを行えるアシスタント機能を披露した。iMessage上で友達が引っ越した時に新しい住所を送れば、Siriにその友達のコンタクト先ページの情報をアップデートするように簡単にお願いできる。

クラウド型のLLMを活用した時も、デバイス内のAIはどの情報が適切かを判断して、その部分しか送らないようにしている。同時にIPアドレスはバレないようにして、サーバーのローカルのストレージがないのでトラッキングされない。

このオンデバイス重視でChatGPTなど外部LLMと連携する戦略は実際のChatGPTの利用シーンで明確だった。特定のタスクを行うときにAppleがスマホ画面の上の部分にユーザーにChatGPTを活用しても良いのかの承認を取る通知が来るようになっている。そこには「ChatGPT」と明確に書かれているが、後々他社のAIモデルも取り込むことが想定されている。Craig Federighiさんも他の外部モデルへのアクセスを許可するようにすると発言していて、例としてGoogle Geminiをあげた。

自社AIモデルを開発してもOpenAIには追いつかないと言う人もいるかもしれないが、個人的にはそこがAppleの狙い目ではないと思っている。最終的にAppleは「ChatGPT」「Gemini」「Claude」などと提携するかもしれないが、AppleはどのAIモデルをどのタイミングでどのように使うかをコントロールするAI OSレイヤーをコントロールしようとしている。他社に自社の優位性であるクローズドなエコシステムにコントロール権を渡すのは絶対Appleとして許せないこと。そして今後は1つのモデルが全てのユースケースに使えるのではなく、色んなAIモデルがあることを考えると、そこのルーター的な存在が必要となる。そこにユーザーの好みやパーソナライズされたAIを組み合わせると本当のAIアシスタントが生まれる気がする。それがAppleとしての目的。AppleとしてはAIがプラットフォームではなく、プラットフォームをより連携させるもの。

デバイス内でのAppleの自社AIモデルのパフォーマンスを見ると、今はGPT-3.5ぐらいのレベルになっている。

Apple Machine Learning Research

トップレベルのモデルにはなれないが、特定のユースケースなどに絞ればオンデバイス型のAIモデルでも十分なことが出来ると考えられる。画像生成であればMidjourney、スペルミスや文法をチェックしてくれるGrammarly、様々な計算機アプリや数学アプリ、パスワードアプリ、ミラーリングアプリ、そしてAIウェアラブルデバイスなどが今回のアップデートで需要が落ちるのではないかと言われている。

（記事内でLLM OSのツイートを引用）