💬

AIエージェントの「できる」と「任せられる」の間にある壁

に公開

2026年に入り、AIエージェントの性能競争はかつてない熱を帯びています。ベンチマークの数字だけを見れば『万能』に近づいているようですが、いざ業務フローに組み込むと、最後まで仕事をやり遂げてくれないもどかしさに直面するケースが増えています。

なぜ、単発のタスクでは優秀なAIが、一連のプロジェクトになると急に失速してしまうのか。2025年後半から登場した実務特化型のベンチマークをもとに、課題と対策を整理してみます。
なお、以下の内容は筆者の経験談ではなく、2025年から2026年にかけて公開された研究論文や技術レポートに基づく示唆であることをご留意ください。

「単発タスク」は得意になってきた

GDPval:専門家と同じ仕事をさせて比べる

GDPvalはOpenAIが2025年9月に公開した評価フレームワークで、経済的に価値のある実世界タスクに対して、モデルがどれだけ通用するかを測ります。

https://openai.com/ja-JP/index/gdpval/

  • 対象タスク:
    米国GDP上位9産業にまたがる44職種で、タスクは平均14年の経験を持つ専門家の仕事をもとに構成されています(1タスクあたり人間の平均作業時間は7時間)
  • 評価指標:
    法律文書・財務報告・看護計画のような成果物をAIに作らせ、同じ職種の専門家が人間の成果物とAIの成果物をブラインド比較します

GDPvalの最新結果(2025年12月)では、GPT-5.2 Thinkingがwins 49.7%(+ties 70.9%)、GPT-5.2 Proがwins 60.0%(+ties 74.1%)を記録し、対専門家で初めて過半数超えを達成しています。つまり、単発の知識労働タスクでは、AIが専門家と同等以上の成果物を出せるケースが多数派になってきました。

出典:https://openai.com/ja-JP/index/introducing-gpt-5-2/


出典:https://evals.openai.com/gdpval/leaderboard

GPT-4oと比較すると、1年半で約6倍のスコア改善となっています。
ただし、職種によって差は大きく、GPT-5.2 Thinkingの場合は行政サービスマネージャー向けのタスクは87%に達する一方、金融マネージャーは24%となるなど、何をやらせるかで変わってきます(Leaderboard参照)。

GDPval-AA

OSSを含む最新モデルの動向を追いたい場合は、Artificial Analysisが公開するGDPval-AAリーダーボードが便利です。人間専門家が判定する原論文とは異なり、モデル出力同士をGemini-3.0 Proでペア比較してELOレーティングを算出する方式で、継続的に新モデルを評価しています。2026年3月時点ではGPT-5.4(ELO 1667)→ Claude Sonnet 4.6(ELO 1633)→ Claude Opus 4.6(ELO 1606)という並びです。
https://artificialanalysis.ai/evaluations/gdpval-aa

APEX:ただし「要件を満たし切る」には課題あり

同じ路線で、よりターゲットを絞ったのが2025年9月発表のAPEX(The AI Productivity Index)です。
https://www.mercor.com/apex/apex-v1-leaderboard/

  • 対象タスク:
    投資銀行アソシエイト、経営コンサルタント、大手法律事務所、プライマリケア医療といった4職種の現役エキスパートが実務に基づいて設計しており、1タスクあたりの平均所要時間は3.5時間(1〜8時間の範囲)、合計400ケースです。
    各ケースは、実際の専門的なワークフローを反映したタスクプロンプト、一連のソースドキュメント(ケースあたり平均約26,000トークン)、および詳細な評価基準で構成されています。

  • 評価指標:
    GDPvalと異なり、専門家が定義したルーブリック(採点基準)を何割クリアできたかを測ります。各タスクには専門家が定義したルーブリック(採点基準)が平均15個あり、それぞれの合格/不合格をGemini 2.5 flashで判定し、その充足率をスコアとして算出します。イメージとしてはユニットテストに近い評価です。

2026年3月時点のリーダーボードではGPT-5.4 (High) が全タスク平均67.2%を記録しています。
これは「専門家が設定した実務基準の3分の2をクリアした」という意味で、裏を返せば3割は満たせていないことになります。

出典:https://www.mercor.com/apex/apex-v1-leaderboard/

ここで重要なのは、GDPvalとAPEXの違いはタスク難易度ではなく評価粒度にあるという点です。

  • GDPval:アウトプット全体の「良さ」を評価
  • APEX:要件単位の「抜け漏れ」を評価

そのため、同じモデルでも 「それっぽく正しい成果物は作れるが、完全性や網羅性まで含めて専門家並みとはまだ言えない」 という性質が見えてきます。

「仕事を丸ごとやらせる」とどうなるか

GDPvalとAPEXは「成果物を1つ作る」タスクを評価しています。一方、実際の仕事はもっと複雑で、複数のステップにまたがります。ここに着目したのがRLIとHAPIです。

RLI:フリーランス案件をAgentに任せてみる

RLI(Remote Labor Index)はScale AIとCenter for AI Safetyが2025年10月に公開したベンチマークです。
https://www.remotelabor.ai/

  • 対象タスク:
    Upwork(フリーランス案件のマッチングプラットフォーム)で実際に完了・支払いが確認された案件240件をそのまま使用し、人間のフリーランサーと同じ条件でエンドツーエンドでAIにやらせるという設計です。
    案件の中身はゲーム開発、建築設計、動画制作、データ分析、3Dモデリングなど23カテゴリ。人間の平均作業時間は28.9時間(中央値11.5時間)です。

  • 評価指標:
    人間と同等以上の品質でプロジェクトを完了した割合です。人間の評価者が、実際に人間が納品した成果物を参考に、AIの成果物を「納品物として受け入れられるかどうか」を判断し、その割合を算出します。

2026年3月時点のリーダーボードでは最高がOpus 4.6の4.17%となっており、他のフロンティアモデル(GPT 5.2、GPT-5、Gemini 3 Proなど)は1.25〜2.5%の範囲にとどまりました。

出典:https://www.remotelabor.ai/

失敗の主な内訳は品質の低さ、成果物の不完全さ、ファイルのエラーなどです。APEXで見えた要件の取りこぼしや未達が、長時間タスクでは成果物の未完成やファイルエラーと重なり、致命傷になっている可能性があります。

HAPI:人が介入するとどうか

同じUpworkのデータを起点に、「人間が途中で介在したらどうなるか」を測ったのがHAPI(Human+Agent Productivity Index)です。Upworkが2025年11月に発表しました。
https://www.upwork.com/human-agent-productivity-index

  • 対象タスク:
    フリーランスプラットフォーム Upwork から抽出された、実際に完了・支払いが確認された約300件の実案件を使用します。内容はソフトウェア開発、デザイン、ライティング、分析、コンサルティングなど複数ドメインにまたがり、目的・成果物・手順・期限などが明示された実務タスクを、AIにエンドツーエンドで実行させる設計です。

  • 評価指標:
    人間の専門家が定めた必須の評価基準(ルーブリック)を全て満たしたタスクの割合です。ルーブリックを満たしているかは専門家が評価しています。

実験では、AI単独条件(Agent-only)に比べて、人間がフィードバックする human+agent条件(human turn) 条件では完了率が改善しました。カテゴリによって差はあるものの、ライティング・翻訳・マーケティングでは最大17ポイント改善しており、全体としても Upwork は最大70%の相対改善を報告しています。


出典:https://www.upwork.com/human-agent-productivity-index
human turn:AIエージェントの成果物を人間が評価し、採点(合格/不合格)と詳細なフィードバックを提供。1st=フィードバックを1ターン実施

複雑な案件での結果ではない点に留意が必要ですが、RLIで厳しい数字が出た後に「人間が介入すると話が変わる」という知見を示した点は重要だと思っています。

EnterpriseOps-Gym:エンタープライズ環境での評価

EnterpriseOps-Gymというエンタープライズ環境向けのベンチマークを、ServiceNow Researchが2026年3月に発表しました。
https://enterpriseops-gym.github.io/

  • 対象タスク:
    164のデータベーステーブルと512のツールを備えたサンドボックス環境で、カスタマーサービス、人事、ITなど8つの分野にわたる1,150のタスクを評価します。

  • 評価指標:
    評価指標はタスク完了率です。タスク完了時に専門家が手書きしたSQL検証スクリプトを実行し、パスした割合を集計しています。

EnterpriseOps-Gymでは、計画なしの実行(Baseline)、Agent自身による計画(Planner)、人間が作成した計画を与えた条件(Oracle Human Plan)を比較しており、人間の計画を与えた条件が最も高い完了率を示しました。


出典:論文 Figure 6. Claude-Sonnet-4.5による評価結果
HAPIの知見と重なる話で、ボトルネックはツールを使う実行能力ではなく、戦略的な計画を立てる能力のほうにある、ということです。

「たまにできる」は「任せられる」ではない

ここまで見てきたベンチマークから分かるのは、AIエージェントが単発タスクでは高品質な成果物を出せる一方で、長い仕事を安定して最後までやり切ることにはまだ大きな課題がある、ということです。

この差を考えるうえで重要なのが、「1回でも成功する」ことと「毎回成功する」ことは全く違うという点です。

Sierra Researchが2024年に発表した τ-bench では、エージェントの一貫性を考えるうえで、pass^k という指標が提案されています。
https://taubench.com/#home

従来の pass@k は「k回試したうち1回でも成功すればよい」という指標ですが、pass^k は「k回すべて成功する確率」を見ます。

例えば、1回あたりの成功率が70%のエージェントを考えると、

  • pass@3 \approx 97\%
    (3回試行すれば、少なくとも1回は成功する確率は高く、一見すると優秀に見える)

  • 0.7^3 = 34.3\%
    (しかし、3回連続で成功する確率は約3分の1しかない)

つまり、“たまにうまくいく”エージェントは、実運用では必ずしも頼れる存在ではないということです。

この問題は、タスクが複数ステップにまたがるとさらに深刻になります。
各ステップの成功率を p、ステップ数を n とすると、全体の成功率は p^n で低下していきます。

ステップ成功率 5ステップ後 10ステップ後
95% 77% 60%
90% 59% 35%

各ステップではそこそこうまくいっているように見えても、ステップが増えると全体は急激に崩れます。

RLIやEnterpriseOps-Gymで見えているのも、まさにこの構造です。
単発のタスクでは高品質な成果物を出せても、長い仕事になると、

  • 要件の取りこぼし
  • 中間判断のミス
  • ファイルやツール操作の不備
  • 修正のやり直し漏れ

といった小さな失敗が積み重なり、最終的には「納品可能な水準」に届かなくなります。

つまり、現在のAIエージェントの課題は、単に知識や推論が足りないことではありません。
長い仕事の中で、小さな失敗を蓄積させずに進めることに難しさがあるのです。

では、どうすればいいか

ここまでのベンチマークを読む限り、少なくとも今の時点で「全部自律で回す」を前提に設計するのは無理があります。現実的なのは、Human+Agentを前提に、どこで人間が介入するかを先に設計することです。

「AIだけに任せる」より「Human+Agentの設計」を考える

HAPIでは低難度案件に限っても human-in-the-loop で完了率が大きく改善しました。EnterpriseOps-Gymでも、人間が作った計画を渡すだけでも改善しています。どちらも「モデルをもっと賢くする」前に、人間の判断をどのタイミングで差し込むかが効くことを示しています。

エージェントを「自律的に仕事を完遂させるもの」として設計するより、「人間の意思決定を高速化するもの」として設計する方が、今の能力水準では現実的だと思っています。まずはドラフト作成・情報整理のようなベースラインとして置き、人間は方針決定・要件確認・最終承認のような仕上げに集中する。この分業の方が、今の能力水準には合っています。

筆者の解釈

この「計画の質」という問題は、最近開発手法の文脈でも議論されている 仕様駆動開発(Spec-Driven Development / SDD) に共通する考えですね。

EnterpriseOps-Gymの「計画を事前に渡すと精度が上がる」という知見と、仕様駆動開発の「実装前に仕様を固める」という発想は、根っこが同じ話です。エージェントのボトルネックが「実行能力」ではなく「計画・意図の理解」にあるという認識が、研究と実践の両方で重なってきています。

タスクは3〜5ステップ以内に分割する

Berkeleyの論文では、306人の実務者調査と20のケーススタディから、本番エージェントの68%は人間が介入するまでに10ステップ以下しか実行せず、半数近くは5ステップ未満に制限していることを明らかにしています。
https://arxiv.org/abs/2512.04123

同研究は「5〜10ステップのワークフローからスタートして段階的に複雑さを加えることが、最初から野心的なマルチステップ設計を組むより良い結果をもたらす」とも述べています。ステップ間の中間成果物を構造化して外部に保存しておくと、エラーが途中で見えるようになります。

実装はシンプルに保つ

HAL(Holistic Agent Leaderboard)での論文では、複雑なタスク特化型の構成が必ずしも有利ではなく、シンプルな汎用実行基盤の方が安定するケースも示されています。
https://arxiv.org/abs/2510.11977

監視の仕組みを先に作る

LangChainが2025年12月に実施した「State of Agent Engineering」調査(1,340回答)では、エージェントを本番稼働させている組織の94%が何らかのオブザーバビリティを導入済みで、71.5%が個別ステップまで確認できるフルトレーシングを持っているという結果が出ています。
https://www.langchain.com/state-of-agent-engineering

まとめ

2026年3月までのベンチマーク結果に基づくと、AIエージェントは 「高品質なドラフトは作れるが、長い仕事を安定して完遂するにはまだ課題がある」 状態です。
「AIエージェントが仕事を奪う」でも「まだ使い物にならない」でもなく、今の能力水準に合ったHuman+Agentの設計をどうするかが実務の本題になってきた気がします。

今後もモデル性能の改善によって、単発タスクや限定ドメインでの有用性はさらに伸びるはずです。
ただし、長期タスクではエラー蓄積の構造自体は消えないため、今後の実務で差がつくのはモデル選定そのものより、タスク分割・人間介入・チェックポイント設計といったアーキテクチャ側の工夫になりそうです。

松尾研究所テックブログ

Discussion