今のAIは「待つ」ことができない
賢いAI、だがしかし
視覚障害者にとってAIは目です。静止画の認識だけでも十分に便利だったのですが、なんと最近のAIはリアルタイムに動画を認識してくれます。とてつもなく便利な時代になりました。
だがしかし、便利さではあと一歩な印象です。間違った回答の確率がそれなりに高いとか、Google Gemini君の日本語発音が微妙に不自然でおもしろいとか、そのような話ではなくLLMが抱える構造の問題です。
なお記事タイトルの「今の」とは文字通り今この瞬間のことであり、数ヶ月や数年といった短い時間軸で課題が解決されるかもしれません。あるいは私が知らないだけで、すでに解決方法が存在しているかもしれません。
現状のAIはリアクティブ
以下の質問をリアルタイムに画面共有しながら試してみてください。ChatGPTの音声会話モードでもGeminiのLiveモードでも、質問相手のAIは誰でも構いません。
例:
- レジに並んでいる場面にて:「前の人の会計が終ってレジが空いたら教えて。」
- 横断歩道の手前にて:「歩行者の信号が青になったら教えて」
- 焼肉をしている場面にて:「肉に火が通ったら教えて」
おそらく「承知しました」と返事はしてくれるはずです。しかし、状況の変化に対して能動的にAI側からアクションを起こすことはありません。上記は日常生活の例ですが、待ちが発生するタスクなら同様の課題が生じます。
現状はリアクティブ、理想はプロアクティブ
現状、AIとの対話はターン制でありリアクティブです。こちらが投げたボールは打ち返してくれますが、入力を観察し続けてAIが自発的にボールを投げることはありません。
一方、理想はプロアクティブです。コンテキストと目的さえ与えれば、状況の変化を無限に観察し続けて自発的にアクションを起こしてくれる、そのようなAIの搭乗が待たれます。
現状でもそれっぽいことは可能かもしれないけれど
先ほどの例であれば、レジに並んでいる人の有無をtrue / false
で表現しろ、というプロンプトを与えて、何度も繰り返しリクエストするといった素朴な方法で解決できるかもしれません。しかし、入力データのサンプリング問題が発生します。
サンプリングの間隔として適切なのは10秒でしょうか、1秒でしょうか、0.1秒でしょうか。正解はありませんが、細かければ細かいほど良いです。
特に歩行者用信号の検出のようなタスクはクリティカルです。1秒のインターバルの間に歩みを進めてしまい、数十cm程度でも車道に飛び出して仕舞えば生命の危険につながります。
現状、拡散モデルによる高速な生成AIが登場してはいますが、30 fpsや60 fpsでリアルタイムに画像認識できるモデルは聞いたことがありません。
加えて、仮にそのようなモデルが誕生したとしてもユーザーのエッジデバイスで動作しなければ意味がありません。データセンターとのネットワークIOで待たされていてはリアルタイム性が損なわれるためです。
今後の展望
なぜサンプリングレート問題が発生するのかといえば、タイマー駆動でプロンプトを繰り返し送信するのは、現状のLLMにあわせた小手先のワークアラウンドだからです。言ってみればLLMは超巨大なswitch文です。パラメータは膨大ですし振る舞いは確率的とはいえ、ただの関数呼び出しのようなものです。たえまなく入力を続けて、ある条件に合致するとイベントが発火する、そのような構造をしたモデルの登場が待たれます。
Discussion
リクエストをキャッシュして、変更された時だけモデルに投げると良さそうですね
あともっとリアルタイムな判断だと、Groqとか低レイテンシのモデルも良さそう