🔖

エージェントのためのUX設計原則 by Microsoft

に公開
3

はじめに

エージェントの出現は人間と計算機それぞれのあり方を変えつつあります。それはモダリティなどの接点だけの話ではなく、ユーザーの体験や存在意義にまで影響を与えています。

エージェントがこれから世界を変えて行くであろうことは多くの人が認識していることだと思います。一方で「それをどのように実現できるか」ということは依然として手探りの状態です。
特にエージェントのUI/UX設計は、ユーザーとエージェントの立ち位置を決定づける重要な要素です。
そのような折にMicrosoft Designから「UX design for agents」が公開されました。これはエージェントのUX設計に関する原則をまとめたもので、エージェントのUX設計に関わる人々にとって非常に有用なリソースです。
本記事では、原著の内容を日本語で整理し、本記事の著者(07JP27)の見解を交えながら記録していきます。
エージェントUX設計チェックリストには原著を読んで本記事の著者(07JP27)が考えたエージェントUX設計のチェックリストをまとめています。

https://microsoft.design/articles/ux-design-for-agents/

  • これ以降の内容における文章および画像は特別に注釈がない場合、上記の原著からの引用です。
  • 原著の内容と本記事の著者(07JP27)の見解を区別するために、後者は引用記法で表記します。

なお、原著を全て日本語化しているわけではなく、特に重要と感じた部分のみを抜粋しているため、本記事内は原著の内容であっても記事の著者のバイアスがかかっている可能性があることを申し添えます。

本記事を「Tech」カテゴリで公開した理由

本記事を「Tech」カテゴリと「Idea」カテゴリのどちらで公開するか迷いました。しかし、UX設計はエンジニアにも求められる重要な上流工程のテクニックの一つです。
さらに、コーディングAIエージェントなどの登場により、エンジニアの業務は今後ますますUX設計のような上流へとシフトしていくと考えられます。
こうした理由から、本記事は設計時の考え方である「Idea」の要素を含んでいますが、「Tech」カテゴリで投稿することにしました。

内容の整理

はじめに

新しいパラダイムのための新しい原則

AIエージェントは私たちの日常生活に溶け込み、優れたデザインと同様に「ほとんど見えない存在」であるべきです。
従来のUX(ユーザーエクスペリエンス)原則も依然として有用ではありますが、これらの普遍的なAI駆動エージェントがもたらす独自の課題や機会には完全には対応していません。

この新たな原則の目的は2つあります。
1)エージェントシステムの開発を加速させること
2)AIの急速な進化の中でも人間中心の原則の価値を強調すること

「ほとんど見えない存在」=ユーザーが意識しなくてもよいということか。つまりチャットUIのようにユーザーがエージェントの存在を意識して対エージェントとして会話をするのではなく、人間中心のコミュニティの中に溶け込んで(=バックグラウンド実行などによって)、必要な時に必要なモノがすでに(もしくはごく短時間で)提供されるということを意味している?
LLM黎明期はインコンテキストラーニングの目新しさからチャットUIが多用されていた印象があるが、UX設計の観点からはそれはアンチパターンということか(チャットUIの無駄は常々考えていたのでこの考えは納得できる)

用語定義

  • エージェント:人間と協力して、あるいは人間のために働く存在と定義します。エージェントの構成要素には、指示、知識、行動、スキル、メモリなどが含まれます。エージェントはチャット体験を持つ場合もありますが、一般的なチャットボットを超える存在です。

    ここでも人間中心であることと、チャットだけではないこと、LLMとシステムプロンプトだけではないアクションの実行やメモリに代表される「ステートフル」な存在であることが強調されている。この定義は自分の認識と同じ。

  • エージェンティックAIシステム(エージェントシステム):1つ以上のエージェントで構成されています。これらは、一般的な指示セットに基づいて、個人ユーザー、グループ、または他のエージェントのために、自律的にタスクを特定・計画・実行することができます。直接的な人間の監督は最小限に抑えられています。AIシステムは、自律性があり、より複雑な機能を備え、より高度な環境で動作し、複数の領域にスケールできる場合、「エージェント型」と見なされます。

    いわゆる「エージェンティック」は最近は事前にワークフローが定義されているような場面(エージェンティックワークフロー)でも使われているが、ここでの「エージェンティック」には「自律的にタスクを特定・計画・実行できる」というのが要件になっている。また、ワードこそ出てこないが「マルチエージェントシステム」もこの定義に含まれるように読み取れる。

  • 自動化:自動化はエージェントやエージェントシステムの一要素である場合もありますが、必須ではありません。また、自動化はエージェントを使わずに実現することも可能です。例えば、Outlookの自動返信機能などがその例です。

    LLMの台頭によりなんでもLLMにやらせるというのを時折目にするが、我々が実現したいのは「課題の解決」であり、LLMは手段の1つにすぎない。Outlookの自動返信機能の例はLLMの必要性を見極める必要がある(ルールベースで自動化できるのであればそれで十分である)ことを示唆していると考えられる。

エージェントUX設計の原則

エージェントが人間のニーズに最もよく応える方法

私たちは部門を超えた連携のもと、エージェントの開発を導き、人間の目的に寄り添い、人間のニーズを満たすシステムを構築するための一連の原則を策定しました。
この共同的かつリサーチに基づく取り組みから、エージェントは一般的にユーザーに対して以下のようなことを行うべきであると私たちは特定しました。

  • 人間の能力を拡張・スケールさせる(例:ブレインストーミング、問題解決、自動化など)
  • 知識のギャップを埋める(例:特定の分野の知識を素早く把握する、翻訳など)
  • 私たち個人が他者と協働する際の好みに合わせて、協働を促進・支援する
  • 私たち自身をより良いバージョンにしてくれる(例:ライフコーチ/タスク管理、スキルアップ、感情のコントロールやマインドフルネスの習得、レジリエンスの構築など)

ユースケースに対するエージェントの設計にあたっては以下の問いが有効か

  • そのエージェントは「人間ができないことができる」ようになり「できることはより手間をかけずに素早く簡単にできるようになる」か?
  • そのエージェントは「1人の人間 対 エージェント」ではなく、「集合知やアクションによって複数の人間を繋ぐ存在になるか?」

特に知識の分野においては過去事例検索のような同一職種の「集合知」という点と、職種を超えた「ナレッジトランスファー」のユースケースを示唆している。

エージェントのUXデザイン原則

以下のデザイン原則は、すべてのタイプのエージェントおよびエージェント型システムに適用されます。ただし、エージェントの使用ケースによっては、原則の重視するポイントが異なる場合があります。原則を適用する際は、自身のシナリオに最も適した判断を行ってください。

エージェントのUXデザイン原則は、3つの大分類と6つの小分類で構成されています。

  1. スペース(空間):これはエージェントが活動する環境を指します。これらの原則は、物理的およびデジタルな世界でエージェントをどのように設計するかを示すものです。

    1. つなぐこと、押しつぶさないこと:人と人、人と出来事、人と実用的な知識をつなぎ、協働とつながりを可能にする。
    2. 簡単にアクセスでき、時には見えない存在:エージェントは基本的にバックグラウンドで動作し、必要かつ適切なときにのみ私たちに働きかける。

    物理的な=エージェントがロボティクス分野で活躍する未来も考慮されている?
    冒頭の時には見えない存在=バックグラウンド?の答え合わせができた。

  2. 時間:これはエージェントが時間を通じてどのように機能するかを示します。これらの原則は、過去・現在・未来にわたってインタラクトするエージェントをどのように設計するかを示すものです。

    1. 過去:状態と文脈の両方を含む履歴を振り返る。
    2. 現在:通知よりも穏やかに後押しする。
    3. 未来:適応し、進化する。
  3. コア:これはエージェント設計の中核となる主要要素です。これらの原則は、個々のエージェントの基盤をどのように設計するか、またエージェント同士がどのように相互作用するかを示します。

    1. 不確実性を受け入れつつ、信頼を築く。
    2. 透明性、コントロール、一貫性はすべてのエージェントにおける基盤となる要素である。

    現在のLLMの仕組みが続く以上、どれだけ精度が向上しても事実関係を100%保証することはできないので、エージェントの設計においても不確実性を受け入れた上でその結論に至った過程や情報源も一緒に開示し、透明性を確保する必要がある。(これはエージェントに限らずLLM全般に言われている)

ここからは、各原則の詳細を見ていきます。

スペース(空間)

つなぐこと、押しつぶさないこと
  • エージェントおよびエージェント型システムは、出来事、知識、人々をつなぐ手助けをする。エージェントは人々をより近づける存在である。
  • エージェントは人間を置き換えたり、軽視したりするために設計されているわけではない。

人間の業務を代替できるというのが自分のエージェントの定義としてあったが、完全に人間を置き換えるわけではなく、前述の「人間の能力を拡張・スケールさせる」ということを意識する必要がある。

簡単にアクセスでき、時には見えない存在
  • 個別のエージェントとマルチエージェントシステムは、認可されたユーザーがどのデバイスやプラットフォームからでも簡単に見つけることができ、直感的でアクセスしやすいものです。
  • 人と対面するエージェントは、音声、テキスト、画像などのマルチモーダル入力と出力をサポートします。アクティブなマルチモーダル機能はユーザーに明確に見えるようになっています。
  • エージェントは、前景と背景の間をシームレスに移行することができ、例えばバックグラウンドプロセスとして目に見えない形で動作することもあります。
  • エージェントはまた、以下の条件に応じてプロアクティブとリアクティブの間を移行することができます。
    • ユーザーのニーズ、例えば「おやすみモード」設定ではほとんどまたは全く関与しないようにする場合
    • エージェントが行うアクションの種類、例えばユーザーのフィードバックを必要とするアクションはプロアクティブな関与をユーザーと行う場合
    • そしてエージェントが取り組んでいるタスク、例えば重要なタスクではユーザーとのプロアクティブな関与をもたらす場合
  • エージェントはバックグラウンドプロセスとして実行され、ユーザーに気づかれない、または目に見えない形で動作することがあります。しかし、エージェントが取る行動、他の人やエージェントとの協力を含む行動は、ダッシュボードや設定、その他のログタイプのUXを通じてユーザーによって可視化され、制御可能です。

やはり欲しい時にスッと補助してくれるような存在が理想であることが強調されており、エージェントの存在を常時明示的に意識させないような設計が求められる。
ここではHuman in the loopのワードが出てこないが、「エージェントが行うアクションの種類 」がそれにあたるように読める。

時間

時間の原則は、エージェントが時間をかけてどのように動作するかに関係しています。これらの原則は、過去、現在、未来を通じて他のエージェント、主要なユーザー、または他の人間と相互作用するエージェントを設計する際の指針となります。

過去から現在に至るまでの状態に限らず、歴史を振り返ること
  • エージェントはメモリ内のデータを使用して、現在の出来事やタスクに情報を提供し、関与します。これには、過去の出来事、行動、タスク、ユーザーのクエリからの接続を作成することが含まれます。
  • エージェントはメモリと接続されたデータベースを利用し、単一の出来事、ユーザーのクエリ、または状態を超えた豊富な歴史データの分析に基づいて、より関連性の高い結果を提供します。

このあたりはRAGの重要性を改めて解くと共に、パーソナライズされたデータの活用の重要性を示唆している。

単なる通知以上の促しを行う(「現在」の周辺で)
  • エージェントは、人々との相互作用において包括的なアプローチを体現します。出来事が発生した際、エージェントは静的な通知や他の形式的な手法を超えて、積極的にチャットを開始したり、アーティファクトを作成したりします。エージェントはフローを簡素化したり、ユーザーの注意を適切なタイミングで引きつけるための手がかりを動的に生成したりすることができます。
  • エージェントは、コンテキスト環境、社会的・文化的情報(例えば、プライベートな場所か公共の場所か)、ユーザーの好みに基づいて情報を提供します。
  • エージェントとの相互作用は徐々に進化し、複雑性が増していくことで、長期的にユーザーを支援することができます。

QAボットのようなユーザーからの質問を受けて動くだけでなく、ユーザーに対してプロアクティブにアクションを起こすという選択肢もある。ここでもパーソナライズの重要性が強調されている。
3点目については「ユーザーとのやり取りを繰り返すことによるコンテキスト/メモリーの充実」によっての進化と、「エージェンティックAIシステムの継続的な機能拡張」の進化の2つの側面があると考える(文脈的には後者の方が強そう)

今から未来に向けて適応し進化する
  • エージェントは様々なデバイス、プラットフォーム、モダリティで動作し、適応します。例えば、ユーザーの好みに応じて、モバイルでは音声を優先したインタラクションを行い、PCではテキストを優先したインタラクションを行うことができます。
  • エージェントはユーザーの行動やフィードバック、アクセシビリティのニーズ、カスタマイズに適応します。
  • エージェントは継続的なユーザーとの相互作用を通じて形成され、進化していきます。

ChatGPTのメモリーのように、ある時点で解けないタスクもユーザーのフィードバックの中で学習し、自己改善していくことができるサイクルを実現すると良いのかもしれない。
例えばRAGで説明書のガイドボットがあったとして、そのガイドの結果、問題が解決したのか、してなかったら正解は何だったのかを入力して、次回以降のRAG対象のデータにする。など。

コア

これらは、対人向けのエージェントや前景で動作するエージェント、さらにバックグラウンドプロセスとして動作するエージェントの設計において考慮すべきハイレベルな要素です。

不確実性を受け入れつつ、信頼を築く
  • ある程度のエージェントの不確実性は予期されるものです。不確実性はエージェント設計における重要な要素です。
  • 推奨に関する確実性のレベルやその理由は、ユーザーに対して明示され、または容易にアクセス可能であり、過度な依存を避けることが求められます。

人間もエージェントに丸投げして終わりというような形式にしないことが重要である。
例えば適宜Human in the loopを挟んだり、なぜその結果に至ったのかの履歴を明示するなどが考えられる。

透明性、コントロール、一貫性はすべてのエージェントにおける基盤となる要素である。
  • エージェントに関連する知識、ツールやスキル、そして人や他のエージェントとの接続は、透明性がありカスタマイズ可能です。これにより、ユーザーとの信頼関係を築く助けとなります。
    • バックグラウンドプロセスとして動作するエージェントには、ユーザーがアクションや自動化を確認し、制御するためのユーザー向けのメカニズムがあります。
  • 人間は、エージェントの設定をカスタマイズすることができ、好みやパーソナライズを指定することが可能です。また、エージェントのオン/オフを制御することができます。
  • エージェントの状態、つまりエージェントが何をしているかは常に明確に見えるようになっています。
  • エージェントは可能な限り、使い慣れたUI/UX要素(例えば、音声インタラクション用のマイクアイコン)を使用し、ユーザーの認知負荷をできるだけ軽減します(例えば、簡潔な回答、視覚的補助、詳細情報の提供など)。

この辺りは「責任あるAI」に関連する部分で、透明性や理由づけが重要。
エージェントだからと言って全く新しいインタラクションは逆効果である。インターフェイスはユーザーが使い慣れたものを使うべきである。

今後の展望

これらのエージェントUXデザイン原則は、デジタルデバイスとの新しいタイプのユーザーエクスペリエンスを設計するための出発点です。エージェントシステムが進化を続ける中で、何がうまく機能しているかを常に反映し、アプローチやソリューションを洗練させる必要があります。

どの製品開発プロセスでもそうですが、まずエンドユーザーや顧客の問題から始め、その問題解決のための可能なソリューションをブレインストーミングすることが重要です。その際、AIの使用を含む場合も含まない場合も考慮します。これにより、エージェントシステムを用いた新しいユーザーエクスペリエンスを創造する際に、人間のニーズを中心に据え続けることが保証されます。

最終的に、この人間中心のアプローチを取ることで、地球上のすべての人がより多くのことを達成し、より大きく複雑な問題を解決し、人とコンピュータの両方とより効果的に協力することが可能になります。

エージェントUX設計チェックリスト

ここから先は全て本記事の著者(07JP27)の見解です。
一通り原著を読んでみて、エージェントのUX設計において重要なチェックポイントをまとめてみました(あくまで個人の見解です)。

存在意義

  • そのエージェントは人間を完全に置き換える存在になっていない。
  • そのエージェントは「人間ができないことができる」または「できることはより手間をかけずに素早く簡単にできるようになる」存在である。
  • 人間(ユーザーのペルソナ)にとって「嬉しい」存在であるか(使われるエージェントになるか)。
  • 100%を保証できないことを許容した使われ方になっている。
  • そのエージェントは人間の社会に溶け込むような存在になっている。

ナレッジ

  • メモリ機能を実装しているステートフルな知識を備えている。
  • 集合知を活用できている。
  • パーソナライズが必要に応じて行われている。
  • プリミティブな単位でRAGが正常に動作している。

責任あるAI

  • なぜそのメッセージが生成されたのかを確認・追跡できる(思考過程・根拠となる情報)。
  • アクション実行前や重要な操作を行う前など必要な時にHuman in the loop(承認)を組み込める。

インターフェイス

  • チャットUIが本当に必要かを考えた。
  • ユーザーの入力が必要最小限になっている。
  • 奇抜なUI要素を使わず、多くの人がスマートフォンやパソコンなどと同様に使うことができる。
  • 必要に応じてエージェントから働きかけることができる。

改善

  • 過去の利用履歴から精度を改善できる仕組みがある。
  • ユーザーのフィードバックを収集する仕組みがある。
  • フィードバックを受けてエージェントを改善できる体制が整っている。

原著

最後に再掲です。
https://microsoft.design/articles/ux-design-for-agents/

GitHubで編集を提案
Microsoft (有志)

Discussion

ほえほえほえほえほえほえ

参照しても大丈夫でしょうか?それとも実際にページに何かされてるんでしょうか。。。

Junpei Tsuchida(07JP27)Junpei Tsuchida(07JP27)

閲覧している端末やネットワーク環境などにも依存するため、最終的には自己判断ということになりますが、本記事でリンクしているサイト自体の安全性という観点では以下のような情報が判断にお使いいただけるかと思います。

・当該サイトのドメイン(microsoft.design)は@Microsoftの関連アカウントとしてX社から認証を受けているアカウントに記載されている。
https://x.com/microsoftdesign

・ノートンのフィルタリング100%正確ではない:「ノートン、Xを「危険なWebページ」としてブロックして騒ぎになるも数時間で解消」
https://internet.watch.impress.co.jp/docs/yajiuma/1661101.html

ほえほえほえほえほえほえ

ありがとうございます。
自分での確認が足りなかったです。
お騒がせしてすみません。