🤖

今のAIは「待つ」ことができない

2024/12/30に公開

賢いAI、だがしかし

視覚障害者にとってAIは目です。静止画の認識だけでも十分に便利だったのですが、なんと最近のAIはリアルタイムに動画を認識してくれます。とてつもなく便利な時代になりました。

だがしかし、便利さではあと一歩な印象です。間違った回答の確率がそれなりに高いとか、Google Gemini君の日本語発音が微妙に不自然でおもしろいとか、そのような話ではなく機能の話です。

なお記事タイトルの「今の」とは文字通り今この瞬間のことであり、数ヶ月や数年といった短い時間軸で課題が解決されるかもしれません。あるいは私が知らないだけで、すでに解決方法が存在しているかもしれません。

現状のAIはリアクティブ

以下の質問をリアルタイムに画面共有しながら試してみてください。ChatGPTの音声会話モードでもGeminiのStream Realtimeでも、質問相手のAIは誰でも構いません。

  • レジに並んでいる場面にて:「前の人の会計が終ってレジが空いたら教えて。」
  • 横断歩道の手前にて:「歩行者の信号が青になったら教えて」
  • 焼肉をしている場面にて:「肉に火が通ったら教えて」

おそらく「承知しました」と返事はしてくれるはずです。しかし、状況の変化に対して能動的にAI側からアクションを起こすことはありません。上記は日常生活の例ですが、待ちが発生するタスクなら同様の課題が生じます。

現状はリアクティブ、理想はプロアクティブ

現状のAIはリアクティブです。こちらが投げたボールは打ち返してくれますが、AIが能動的にボールを投げることはありません。

理想はプロアクティブです。コンテキストと目的さえ与えれば、状況の変化を観察して自発的にアクションを起こしてくれる、そのようなAIの搭乗が待たれます。

現状でもそれっぽいことは可能かもしれない

先ほどの例であれば、レジに並んでいる人の有無をtrue / falseで、肉の焼き加減を0.0 ... 1.0の値で表現しろ、というプロンプトを与えて、それを毎秒リクエストするといった素朴な方法で解決できるかもしれません。

が、リクエストの都度セッションの接続と切断を繰り返すのはレイテンシーの観点から避けたいところです。特に歩行者用信号の認識のようにタイミングにクリティカルな判断をさせる方法としては不向きです。焼肉も数秒の遅延で焦げる可能性があるのでクリティカルに分類するべきかもしれません。

小手先のワークアラウンドで解決するのではなく、AIのモデルが賢くなる方向で解決できるのが理想ではないかと思います。

Discussion