AIエージェント開発で「チャットUI」を疑うべき理由
AI時代のプロダクトにおける「チャットUI」
こんにちは、TOKIUMプロダクト本部の花房です。
Nani!?という翻訳アプリを作っている(そしてZennを生んだ開発者でもある)catnoseさんのツイートを見かけました。
2022年末にChatGPTが登場して以来、「UIは死ぬ」「インターフェースの終焉」という論調が広まりました。2023年のChatGPT Pluginsに始まり、直近2025年10月にはApps SDKを発表し、ChatGPTがあらゆるサービスの入り口になるビジョンを示したのもその流れです。
ユーザーがアプリを起動したり検索窓に入力したりする時代は終わり、ChatGPTに「旅行を計画して予約して」と言えばすべてが完結する世界が来る
一方で、Vercelのテクニカルマーケティング担当であるEric Dodds氏のブログ記事「AI beyond the chat interface」では、以下のような発言が引用されています。
「人々が提供しているものの多くはチャットボットです。あれは最悪です。ほとんどのアプリケーションで、今まで見た中で最悪のインターフェースです。(中略)IDEやコーディングインターフェースが普及したのは、必要な場所に価値を提供してくれるからです。チャットボットに何かをコピー&ペーストする必要はありません」
── Naveen Rao(Databricks AI担当副社長)
AIエージェントやAIプロダクトを設計するとき、つい「チャットUI」を想定しがちですが、これは最善の選択肢ではないかもしれません。
本記事では、チャットUIの構造的な問題点と、AIプロダクトが取るべき方向性について整理します。
チャットUIの構造的な問題
考えてみれば、チャットUIには意外と問題が多いものです。
問題1:何を入力すればいいかわからない
チャットUIを開いたとき、「さて、何を聞こう?」と手が止まった経験はないでしょうか。
従来の経費精算アプリを開けば、「領収書撮影する」「申請する」「承認する」とボタン等が並んでいます。何をすべきか一目瞭然。
一方、もしも経費精算アプリがチャットUIだけになると、「メッセージを入力...」という空白だけ。ユーザーは「このAIで何ができるのか」を推測するところから始めなければなりません。
これでは、全員にプロンプトエンジニアリングを求めているようなものです。
問題2:出力を読み解く負担がある
チャットUIの出力は、構造化されていない自由文テキストです。これが業務利用において深刻な問題になります。
たとえば、チャットに領収書を添付して、「これ確認して」と投げたとします。ある回答は「この領収書は12月15日付けの居酒屋の領収書で、金額は5,000円です」と返ってくる。また別の回答は「交際費として処理できます。金額は5,000円ですね」となるかも知れません。
内容は同じでも、毎回フォーマットが違う。ユーザーは毎回文章を読んで、必要な情報を頭の中で抽出しなければなりません。意図と違えば、もう一度チャットしなければいけないかもしれません。
あるいは、長文の応答を読み解き、過去の会話履歴をスクロールし、次に何を聞くべきか考える。この一連の作業は、繰り返すとかなり脳のリソースを消耗します。業務で繰り返し使うツールにおいて、この「毎回読み解く」認知負荷は致命的です。
問題3:入力が予測できない(開発者にとって)
開発者にとっても難しい点があります。
ユーザーがチャットに入力してくるテキストは、事実上無限のパターンがあります。
従来のUIなら「このボタンを押せばこの処理」と明確でした。しかしチャットでは「何を入力されるかわからない」という前提で設計する必要があります。想定と違う聞き方をされれば、期待外れの回答になる。ユーザーは「使えない」と感じて離脱します。
UXを最適化しようにも、入力パターンが予測できない。テストのカバレッジも担保しにくい。「このフォームに正しく入力されればOK」という従来の品質保証が通用しません。
裏を返せば、チャットUIは「何を解決するか決めきれていない」ときの逃げ道になりやすい。万能に見えて、実はユースケースの特定を先送りしているだけかもしれません。
先行企業はどう答えを出したか
チャットUIの限界に対し、実際にAIを活用して成功している企業はどうしているのでしょうか。
Duolingo
語学学習アプリのDuolingoは、OpenAIの最大級の顧客の一つです。
彼らがもし「とりあえずチャット」の発想でプロダクトを作っていたら、どうなっていたでしょうか?「AI英語教師と無限にチャットできます」「ネイティブスピーカーのAIと電話できます」——そういう訴求のサービスになっていてもおかしくありません。
Duolingoでは、「穴埋め」「リスニング」「スピーキング」といった語学形式に特化した多様な機能が存在します。
中には「Roleplay」というAI対話風の機能がありますが、「何でも話せる汎用チャット」ではなく、「カフェでコーヒーを注文する」「空港で道を聞く」といった、学習者のレベルに合わせてあらかじめ設計されたシナリオベースの会話練習機能です。
Ramp
支出管理SaaSのRampは、TOKIUMと同じ領域でグローバルで先行する企業です。彼らもまた、「支出管理AIチャットボット」を作っているわけではありません。
彼らのブログには、こんな趣旨のことが書かれています。
契約書を管理するとき、チャットボットに次々と質問するのではなく、重要な詳細を自動で抽出・分析してほしい。手動でアップロードして個別に質問するチャットボットより、AIが自動で重要な条項を抽出して強調表示してくれるほうが便利だ。
Harvey
Harveyは、法律事務所向けに特化したサービスを提供しています。
このプロダクトでは、弁護士が同僚に質問する感覚で使えるチャットUI(Assistant)を入り口として用意しています。「この契約書の論点は?」「この条文をどう直すべきか?」と、自然言語で問いかけられる設計です。
チャット機能は存在しますが、単純なチャットUIではなく、「法律文書を作る」「契約書をレビューする」「調査結果を起草に反映する」といった具体的な弁護士業務のワークフローを特定し、Wordのようなエディタを中心にしたUIを設計しています。
AIプロダクトが取るべき二つの方向性
汎用的なチャットUIを採用すると、「自然言語で指示を出し、自然言語で回答を受け取る」という体験においてChatGPTやGemini、Claudeと勝負することになる。同じ土俵で戦うのは苦しいように思います。
事例から、ChatGPTと正面衝突しないために以下の2つの方向性(組み合わせも)があります。
方向性1:タスクに特化したUIを発明する
一つ目は、タスクに最適化された専用UIを作ることです。
先の事例のプロダクトにも、チャットUIは存在しました。しかし汎用的なチャットではなく、必ず特定のタスクに特化した形でデザインされています。そして、チャットはあくまで数あるプロダクト体験の一部に過ぎません。
音楽生成AIのSunoを見てみましょう。自由にプロンプトを入力することもできますが、音楽制作の素人が「作りたい曲」を的確に言語化するのは難しい。
そこでSunoは、ジャンルの選択肢、歌詞の入力欄、スタイルの入力欄、ボーカルの性別といった項目を用意しています。選択肢を見せることで、ユーザーは「何を決めればいいか」に迷わずに済む設計です。
チャット自体が悪いわけではありません。しかし、入力も出力も自然言語だけに頼らない専用設計が重要です。
方向性2:UIを消して、裏側でAIを動かす
二つ目は、UIそのものを消し去る道です。
AIがユーザーの指示を待つのではなく、裏側で先回りして動く。ユーザーは設定を管理し、レポートを受け取るだけ。
a16zの記事「Big Ideas for 2026」では、これを「プロンプトボックスの終焉」と表現しています。[1]
- プロアクティブな介入:AIがユーザーの行動を観察し、先回りして介入する
- チャットは「補助輪」だった:チャットインターフェースは、AIが成熟するまでの過渡期的な存在
たとえば、開発ツールがユーザーの求める前にバグ修正を提案する(OKを押すだけ)、営業ツールが通話終了時にフォローアップメールの下書きを作成する(送信を押すだけ)、といった具合です。
まとめ
結論として、UIは死なない。形を変えるだけです。
私たちも、経理業務という領域でAIエージェントを開発する中で、この問題に直面しています。
実際に今のTOKIUMのプロダクトは、チャットUIや、自然言語の入力を採用している部分もあり、今後も課題解決すべきユースケースの解像度を上げ、最適なUIUXを追求し続ける必要があります。
チャットUIは中期的にChatGPTのような汎用ツールに食われる可能性があります。「とりあえずチャット」からの脱却が、汎用AIツールに対する競争優位性をもたらすと考えています。
-
a16z(Andreessen Horowitz)は、Facebook、GitHub、Airbnbなどへの投資で知られる米国シリコンバレーの大手ベンチャーキャピタル。「Big Ideas」は同社が毎年末に発表する翌年のテクノロジートレンド予測で、各分野の投資家が注目する「今後解決されるべき問題」を提示している。 ↩︎
Discussion