🌐

世は大環境時代 - エージェントハーネスとRL環境の展開から見えてくるもの

に公開

松尾研究所の長谷です。データサイエンスチームのマネージャーを務めております。

2026年に入って「ハーネスエンジニアリング」がバズワードになりました。同時に、強化学習(RL)の文脈でも「RL環境」への注目が急速に高まっています。

この2つ、使われている領域は異なりますが、根っこの思想は驚くほど似ています。
どちらも「モデルだけではなく、モデルを取り巻く環境の設計が成果を左右する」という認識に立っていて、さらにその環境をポータブルに共有・再利用できる仕組みが同時多発的に生まれています。

この記事では、エージェントハーネスとRL環境それぞれの動向を整理しつつ、両者に共通する思想がなぜリーズナブルなのかを考えてみます。

verifiersの設計に見る、環境とハーネスの関係

最初に、両者の関係がよく見える具体例をverifiersというライブラリから見ていきます。

弊社の尾崎さん・幹さんがPrime-RLを用いたAgentic RLの技術検証を行っています[1]。その中で使われているverifiersというライブラリは環境の構成を以下のように定義しています。

Dataset + Harness + Rubric = Environment

  • Dataset: 学習に使う問題セット
  • Harness: エージェントの実行環境とツール呼び出しの管理機構
  • Rubric: 報酬関数

RL環境の構成要素として Harness があります。
エージェントハーネスの議論で言う「ハーネス」と、RL環境の議論で言う「環境」は、少なくともverifiersの設計上は入れ子の関係にあります。つまり、ハーネスは環境の一部と捉えられます。

これを踏まえた上で、それぞれの領域で何が起きているかを見ていきます。

エージェントハーネス側の動き

ハーネスとは何か

エージェントハーネスとは、LLMエージェントを本番環境で安定して動かすための実行基盤のことです。ツール呼び出しの管理、サンドボックスの提供、承認ゲート、セッション管理、リトライ制御などを含みます。弊社の渡辺さんがテックブログでまとめてくれたサンドボックス技術[2]もハーネスの構成要素の一つです。

プロンプト → コンテキスト → ハーネスの流れ

ハーネスエンジニアリングが注目された背景には、LLMの活用手法が段階的に進化してきた流れがあります。

最初はプロンプトエンジニアリングの時代でした。「AIにどう指示するか」が主な関心で、Chain-of-ThoughtやFew-shotといったテクニックが次々と生まれました。単発のタスクではこれで十分だったのですが、エージェントとして複雑なタスクを任せようとすると壁にぶつかります。長い作業の途中でプロンプトの指示を忘れる、優先順位が崩れる、といった問題です。

次に来たのがコンテキストエンジニアリングです。「AIに何を見せるか」に焦点が移り、関連ドキュメントの検索(RAG)やコンテキストウィンドウの最適化が重視されるようになりました。1回のセッション内の精度はこれでかなり改善します。ただ、セッションをまたいだ作業になると、「前回どこまでやったか」「何を判断済みか」といった情報が簡単に失われてしまいます。

そして今注目されているのがハーネスエンジニアリングです。「AIが動く環境全体をどう設計するか」に関心が移っています。プロンプトやコンテキストだけでなく、使えるツール、アクセスできるファイル、承認が必要なアクション、セッション間の状態引き継ぎ、リトライの戦略、ログの取り方などの実行環境の全体設計がスコープに入ります。

この流れを加速させたのが、エージェントの実運用で直面する「信頼性の掛け算問題」です。各ステップの成功率が95%でも、20ステップ連鎖すると全体の成功率は約36%まで落ちます[3]。これはモデルの賢さだけでは解決できない問題で、検証ループやチェックポイントといったハーネスレベルの仕組みが必要になります。

2026年2月の爆発

この流れの中で、2026年2月に複数の発信が重なりハーネスエンジニアリングが一気にバズワード化しました。

きっかけの一つが、HashiCorp共同創業者のMitchell Hashimotoのブログです[4]。「エージェントがミスするたびに、次はうまくいくと祈るのではなく、仕組みで対処せよ」というフレーミングが実務者に刺さりました。

同月、OpenAIが3人のエンジニアで100万行のコードベースを手書きゼロで構築した事例を「Harness engineering」として公開[5]。リンターや構造テスト、AGENTS.mdによるルール明文化など、エージェントが正しく動ける環境設計のプロセスが詳細に報告されています。この記事の反響は大きく、「モデルの性能ではなく環境の設計で100万行を実現した」という事実は多くのエンジニアに衝撃を与えました。

こうした発信が重なったことで、それまで各チームが個別に取り組んでいた「エージェントの実行環境の設計」に共通の名前が付き、議論が一気に可視化されたという経緯です。

Anthropicの視点:ハーネスは「仮説」

2025年11月にAnthropicがエージェント設計のガイドを公開し[6]、2026年3月には長時間稼働アプリケーションにおけるハーネス設計の詳細を報告しました[7]

Anthropicはハーネスの各コンポーネントを「モデルが単体ではできないことへの仮説」と捉え、モデルが進化すれば不要になるかもしれないコンポーネントを、意図的に着脱可能に設計しています。ハーネスは固定的な基盤ではなく、モデルと一緒に育てていくものだという考え方です。

Claude Managed Agents:ハーネスがサービスになった日

そして本記事の執筆中(2026年4月9日)に、まさにこの流れを象徴するリリースがありました。AnthropicがClaude Managed Agentsのパブリックベータを開始したのです[8]

公式アナウンスの文言がそのまま本記事のテーマを体現しています:

"It pairs an agent harness tuned for performance with production infrastructure, so you can go from prototype to launch in days."

つまり、これまで各チームが個別に構築していたハーネスを、Anthropicがマネージドサービスとして提供する形です。サンドボックス実行、認証、チェックポイント、スコープ付き権限、長時間セッション管理、ツールオーケストレーション、エラーリカバリ ― ハーネスエンジニアリングで議論されてきた要素がそのままAPIとして利用可能になっています。

早期導入企業の事例も出ています。Rakutenはプロダクト・営業・マーケティング・財務・人事の各領域で、1チームあたり約1週間でエージェントをデプロイ。Sentryは既存のデバッグツールとClaude搭載エージェントを組み合わせ、バグの検出からパッチ生成・PR作成までを一連のフローで実現しています。Notionはワークスペース内でカスタムエージェントを動かし、コーディングからプレゼン資料の生成まで並列でタスクを処理しています。

「ハーネスをどう設計するか」が2026年2月のバズワードだったとすれば、「ハーネスをマネージドで提供する」が2026年4月の現在地です。ハーネスの重要性が認識された結果、それ自体がプロダクトになった ― この速度感が、今起きている「環境シフト」のリアリティを物語っています。

LMGame-Benchにおけるハーネス

弊社テックブログでも以前紹介があったLMGame-Bench[9]は、LLMのゲームプレイ能力を評価するベンチマークですが、モデルに直接ゲーム画面を渡すのではなく、画面情報のテキスト変換やアクション履歴の参照といった行動決定の補助モジュール(harness)を付与して評価するのが特徴です。これも「モデル単体ではなく、モデル+環境の組み合わせで性能が決まる」という同じ認識に立っています。

RL環境側の動き

RL環境とは何か

RL環境は、エージェント(モデル)が行動し、報酬を受け取り、学習するための場のことです。状態空間・行動空間・報酬関数から構成されます。OpenAI Gym(2016)以来の概念ですが、2025年以降LLMへの強化学習が本格化したことで、LLM向けのRL環境構築が急速に活発になっています。

検証可能な報酬(RLVR)の成功

RL環境が注目される大きなきっかけになったのが、RLVR(Reinforcement Learning from Verifiable Rewards)の成功です[10]。数学の答えは正しいか間違っているか。コードはテストを通るか通らないか。こうした検証可能な報酬があるタスクでは、環境さえ整えればモデルは自分自身で強くなることができます。

Prime IntellectとEnvironments Hub

幹さんがテックブログ[11]で推しているPrime Intellectは、「計算リソースの民主化」をミッションに掲げる組織です。彼らが開発しているPRIME-RL[12]は1000+ GPUでの非同期RL学習をサポートするフレームワークで、環境とトレーナーを完全に分離する設計になっています(NeurIPS workshop 2025投稿[13])。

先ほどのverifiersはPrime Intellectが開発しているライブラリで、冒頭の Dataset + Harness + Rubric = Environment はこのライブラリの設計パターンです。定義した環境はEnvironments Hubを通じてパッケージとして共有・配布でき、誰かが作った環境を別の人がそのまま学習に使えます。

冒頭でも紹介した尾崎さん・幹さんの検証[1:1]では、この仕組みを使って4BパラメータのQwen3をメール検索タスクで学習し、GPT-5(37.0%)やGPT-5-mini(40.0%)を上回る55.4%を達成しています。もちろんタスク特化のAgentic RLの成果ですが、ポータブルな環境基盤があることでこうした実験のハードルが大きく下がっているのは確かです。

Scale AIの動き

Scale AIも2026年2月に「RL Environments」を発表しました[14]。記事タイトルは「The Next Frontier of Data Training: RL Environments」で、主張の骨子は「フロンティアモデルの学習は、静的データセットだけでなく、エージェントが行動して試行錯誤できるシミュレーション環境の中で行われるようになっている」というものです。Scale AIによれば、同社の新規データトレーニングプロジェクトの約半数がRL環境を含むようになっています。

なお、Scale AIのBing LiuとChetan RaneはIEEE Spectrum[15]で、「ボトルネックはデータからRL環境に移った」と述べています。RL環境を売っている当事者のポジショントークである点は割り引いて読む必要がありますが、方向性としては多くのプレイヤーが同じことを言い始めている状況です。

NVIDIA Isaac Lab / LeRobot EnvHub

ソフトウェアエージェントだけでなく、ロボティクスの世界でも「環境をパッケージとして共有する」動きが進んでいます。

NVIDIA Isaac Lab[16]はGPU並列シミュレーションで4096環境を同時実行し、ロボットのRLを加速するフレームワークです[17]。そしてHugging FaceのLeRobot EnvHub[18]は、ロボティクスのシミュレーション環境をHub上のGitリポジトリとして公開・共有できる仕組みで、一行で環境を読み込めます:

from lerobot.envs.factory import make_env
env = make_env("lerobot/cartpole-env", trust_remote_code=True)

Isaac Lab Arenaとの統合もサポートされています。PyPIがコードの、HuggingFaceがモデルのエコシステムを作ったのと同じ構図で、環境のエコシステムが形成されつつあります。

「環境を意識する」がエージェント開発の共通認識になりつつある

ここまで見てきた話を整理すると、環境の重要性が2つのフェーズで認識され始めていると言えます。

まず実行フェーズ。エージェントハーネスの議論が示しているのは、本番運用時の環境設計(ツールの構成、サンドボックス、承認フロー、リトライ戦略など)をきちんと整備することで、同じモデルでも出せる成果が大きく変わるということです。

そして学習フェーズ。RLVRによって環境構築のハードルは下がりましたが、環境を実際に作って回すにはまだコストがかかります。Prime Intellectがブログ[19]で指摘しているように、モデル自体はオープンなものが手に入る時代になった一方で、質の高いRL環境は一部のクローズドなラボに囲い込まれがちで、それがオープンソースモデルとの差を広げるリスクになっていました。この課題意識から、環境定義の標準化やEnvironments Hub等でのポータブルな共有基盤が生まれ、環境を一度作れば別のチームでも回せるという状況が、タスク特化RLの裾野を広げつつあります。

エージェントハーネスとRL環境はそれぞれ別の領域で発展していますが、どちらも「モデルが力を発揮できる場をどう作るか」という同じ問いに向き合っています。実行でも学習でも、環境の設計を意識することがエージェント開発の共通認識になりつつあると感じます。

今後どうなるか

学習環境と本番環境の境界が曖昧になる

DigitalOceanの解説記事[20]によれば、CursorやOpenAI Codexのように、自社プロダクトの周囲に環境を構築してモデルをそのプロダクト向けに訓練する企業が出始めています。これらは「ハーネス」とも「UIジム」とも呼ばれており、本番のハーネスがそのまま学習環境を兼ねる形です。ハーネスとRL環境の区別が実務レベルでも溶けていく可能性があります。

ハーネスは薄くなっていく

Anthropicの「仮説としてのコンポーネント」という考え方に従うと、ハーネスには寿命があることになります。モデルが進化すれば不要になるコンポーネントが出てくる。実際、2024年に複雑なパイプラインが必要だった処理が、2026年にはコンテキストウィンドウ一つで済む事例も出てきています。作り込みすぎると技術的負債になるので、疎結合にして不要になったら外せるようにしておくのが大事です。

環境のエコシステムがさらに広がる

Environments Hub、LeRobot EnvHub、OpenRewardのようなプラットフォームが今後も増えていくと、環境の構築・共有・再利用のサイクルが回り始めます。Lee Hanchung (2026)が整理しているように[21]、RL環境の共通インターフェースの標準化(ORS: Open Reward Standard)も進んでいます。モデルのエコシステムがHugging Faceを中心に成熟したように、環境のエコシステムにも同様の動きが起きるかもしれません。

まとめ

エージェントハーネスとRL環境は文脈は違いますが、「モデルを取り巻く環境の設計こそが重要」という同じ思想を共有しています。学習において環境をポータブルにパッケージ化して共有する仕組みが、LLM向け・ロボティクス向け・マネージドAPI型と、複数のドメインで同時に立ち上がっているのも興味深いです。

これは「どのモデルを使うか」から「どの環境で鍛え、どの環境で動かすか」への重心の移動です。テストやCI/CDの経験がある方は、環境設計のスキルがそのままハーネス設計に活きるでしょうし、RL環境を触ったことがある方は本番のハーネス設計にその知見が使えるはずです。

モデルの性能を追いかける時代から、環境の質を競う時代へ。世は大環境時代!


松尾研究所では一緒に働く仲間を募集しています!

松尾研究所HP 
採用ページ 
メンバーインタビュー記事 
AI開発のご相談はこちら


参考文献

脚注
  1. 尾崎・太田, "Prime Intellect Labで始めるAgentic RL ―― 4BモデルでGPT-5を超える", 松尾研究所テックブログ, https://zenn.dev/mkj/articles/prime-rl-20260401 ↩︎ ↩︎

  2. 渡辺, "コーディングエージェントのサンドボックス技術を理解する", 松尾研究所テックブログ. https://zenn.dev/mkj/articles/3ec9d2d39f446b ↩︎

  3. harness-engineering.ai, "The Complete Guide to Agent Harness", 2026. https://harness-engineering.ai/blog/agent-harness-complete-guide/ ↩︎

  4. Mitchell Hashimoto, "My AI Adoption Journey", February 2026. https://mitchellh.com/writing/my-ai-adoption-journey ↩︎

  5. OpenAI, "Harness engineering: leveraging Codex in an agent-first world", February 2026. https://openai.com/index/harness-engineering/ ↩︎

  6. Anthropic, "Building effective agents", November 2025. https://www.anthropic.com/research/building-effective-agents ↩︎

  7. Anthropic Engineering, "Harness design for long-running applications", March 2026. https://www.anthropic.com/engineering/harness-design-long-running-apps ↩︎

  8. Anthropic, "Claude Managed Agents", April 2026. https://platform.claude.com/workspaces/default/agent-quickstart ― Rakuten、Sentry、Notion、Asanaなどの事例は https://claude.com/customers/rakuten および https://claude.com/customers/sentry を参照。 ↩︎

  9. 奥村, "LLMをゲームプレイで評価するLMGame-Benchを紹介", 松尾研究所テックブログ, https://zenn.dev/mkj/articles/b2cde8c62b2ae3 ↩︎

  10. Lambert, N. et al., "Tulu 3: Pushing Frontiers in Open Language Model Post-Training", arXiv:2411.15124, November 2024. https://arxiv.org/abs/2411.15124 ↩︎

  11. 太田, "The Rise of Western OS AI ー欧米のLLM事情に関する考察ー", 松尾研究所テックブログ, 2025/12. https://zenn.dev/mkj/articles/4a0593040e7fb4 ↩︎

  12. Prime Intellect, "PRIME-RL". https://github.com/PrimeIntellect-ai/prime-rl ↩︎

  13. Prime Intellect,"PRIME-RL: Async & Decentralized RL Training at Scale", Neurips workshop 2025. https://neurips.cc/virtual/2025/loc/san-diego/133377 ↩︎

  14. Scale AI, "The Next Frontier of Data Training: RL Environments", February 2026. https://scale.com/blog/rl-environments ↩︎

  15. Bing Liu & Chetan Rane (Scale AI), "AI's Path Ahead: Reinforcement Learning Environments", IEEE Spectrum, December 2025. https://spectrum.ieee.org/reinforcement-learning-environments ↩︎

  16. NVIDIA, "Isaac Lab". https://developer.nvidia.com/isaac/lab ↩︎

  17. Mittal, M. et al., "Isaac Lab: A GPU-Accelerated Simulation Framework for Multi-Modal Robot Learning", November 2025. https://arxiv.org/abs/2511.04831 ↩︎

  18. Hugging Face, "LeRobot EnvHub: Loading Environments from the Hub". https://huggingface.co/docs/lerobot/envhub ↩︎

  19. Prime Intellect, "Environments Hub: A Community Hub To Scale RL To Open AGI", August 2025. https://www.primeintellect.ai/blog/environments ↩︎

  20. DigitalOcean, "Reinforcement Learning Environments", January 2026. https://www.digitalocean.com/community/tutorials/reinforcement-learning-environments-rlvr ↩︎

  21. Lee Hanchung, "A Taxonomy of RL Environments for LLM Agents", March 2026. https://leehanchung.github.io/blogs/2026/03/21/rl-environments-for-llm-agents/ ↩︎

松尾研究所テックブログ

Discussion