🏫

【JSAI2025】松尾研究所参加レポート

に公開

こんにちは、株式会社松尾研究所シニアデータサイエンティストの太田です。
2025年5月27日〜30日に実施された人工知能学会全国大会2025に松尾研究所からデータサイエンティスト6名が参加しました。

今回松尾研究所はゴールドスポンサーとしてJSAIに参加しており、インダストリアルセッションへの登壇や企業ブースでの出展もありましたが、この記事では今年の4月に入社したメンバー5人のフレッシュな視点から、聴講セッションに焦点をおいて大会を振り返りたいと思います。

聴講セッション参加レポート

太田

フィジカルAIシステムの研究開発 身体性に基づく知能の研究

企画セッション[1]

自分が業務でPhysical AIに携わる可能性があるので聴講したのですが、各分野に関する最新の動向を専門家の方々がわかりやすく語っており、初心者にとっては領域の全体像を把握する上でとても勉強となりました。特に面白く感じたのは

  • 昨今研究が進んでいるLLMのRoboticsへの活用(Vision Language Action Model等)における課題
    • LLMは文章コーパスを元に学習されておりPhysical AIにおいて必須となる時間の概念は限定的
    • 他方で現存のデータ量ではPhysical AIの基盤モデルを作ることは難しいことに加え、そもそもロボット基盤モデルを構築する上で必要となるデータの性質についてもまだ見えていない
    • またロボットの特徴として新規のデータを作り出せる(外環境からのフィードバック)がこれをどう扱うかが肝となる
  • ヒューマノイドロボットの台頭
    • ヒューマノイドロボットとVLA基盤モデルが相性が良い理由の一つとして、VLAモデルで活用されているデータの多くは「人間目線」のデータ(人視点での動画や人が操作するテレオペ、ツールなど)であることが挙げられる
      • ヒューマノイドロボットは一種のロマンの追求だと思っていたのですが、これは聞いていてなるほどなと思いました、、
  • System 1(早い思考)を要する動作に関する課題
    • System-2(遅い思考)が必要なアクションについてはVLAで対応できるが、System-1的な早い思考が必要なアクションについては別のパラダイムを見つける必要がある
      • 「高速化した長考=速考ではないか」という考えや、制御モデルを使ったアプローチなど、多角的な議論が面白かったです

大規模視覚言語モデルの開発

チュートリアルセッション[2]

これまたチュートリアルセッションですが、日本でもまだまだ数少ないVLM(Vision Language Model)開発の話ということで気になりました。前職でCNNを主に使った検出モデルの構築や、現在もLLMの開発を担っているので、要素技術については多少知識がありましたが、VLMの文脈で話を聞くことでいくつか発見がありました。代表的なものとしては

  • Vision Encoderの話
    • ViTは基本的にマクロ(パッチ)単位での特徴抽出が強い中で、VLMの主タスクの一つである小さい文字の抽出(OCR)をいかに実現するか
      • Dynamic High ResolutionやNative Dynamic Resolutionなど。シンプルにパッチを小さくしてもトークン数が増えるだけなので、そこをいかに回避するのか勉強になりました
  • VLMにおけるHallucinationの話
    • LLMではよく知られているHallucinationですが、VLM特有のものについての紹介とMitigation方法について解説があり面白かったです
    • 特にDPOを使った事後学習フェーズにてVQA(Visual Question Answering)タスクにおける難しい負例(Hard Negative)を作る手法はとても興味深かったです

振り返り

4月から松尾研究所に中途入社した太田です。実は昨年JSAIに参加した際に初めて研究所の方と接点を持ったのですが、まさか一年後に真逆(研究所側の人間)の立場で再度訪れようとは思ってもいませんでした(この話はまた入社エントリーで)。JSAIは雑多な印象であり学生、研究員、企業が入り交えている様子はとても面白かったし刺激になりました。残念ながら今回はあまり聴講する時間がなく基本的にチュートリアルセッションのみの参加となりましたが、自分が知らない領域について全体像を把握するいい機会となりました!

尾崎

  • 今回は複数のLLMエージェントを人に見立てて社会を仮想的に再現する研究であるマルチエージェントシミュレーションに関連する発表をピックします.
  • 近年はLLMに協調させるマルチエージェントの概念に注目がされています.この研究には(1)複数の異なる能力や役割を持ったLLM同士に協調させ問題解決させるエンジニアリング系,(2)人間もエージェントとして考えるHuman-in-the-loopの延長系,(3)社会シミュレーション系などがあると考えているのですが,今回は(3)に注目していました.
  • 発表検索には弊社にジョインしたばかりで大活躍されている穴井さんが作ってくださった発表マップを使ってました.

https://zenn.dev/mkj/articles/b9531a4202ba19

コレクティブLLMエージェントダイナミクス

発表者(主著):相良陸成さん 静岡県立大学[3]

TL;DR: 100体のGPT-4oエージェントに「きのこの山 vs たけのこの里」論争をさせたら、統計力学でいう「相転移現象」が観測された。利己的なAIは永遠に議論を続け、協力的なAIは急速に合意に至る。


エージェントの意見の移り変わり(キノコ派かたこのこ派か)を示した図.色がそれぞれの派を示していて,上図の場合は利己的なパーソナリティを持ったエージェントが議論するパターン.最後まで全体で合意は取れていない[3:1]


一方で協力的なエージェントだとタケノコ派に寄ったところで終了.面白いのはなぜかタケノコ派に収束するらしい.キノコ派は意見変えやすいのかな...[3:2]

Point:

  1. パーソナリティが引き起こす相転移現象
    協力的エージェントでは信念のエントロピーが急落し,ほぼ全員が同じ意見に収束する「相転移」が発生。一方,利己的エージェントはエントロピーがほぼ不変で,各自が初期の意見に固執し続けました.物理現象と同じ数理モデルでAI集団の振る舞いを説明できたのは画期的です.

Summary:
従来の社会シミュレーションは数理モデルだけでしたが,LLMエージェントを使うことで「性格」という人間的要素を含んだ集団ダイナミクスが観察できるようになったのは,マルチエージェントシミュレーションの最たるところかなと思います.後述するエルファロル・バー問題の「人間らしい非合理性」とは対照的に,こちらは「性格による合理性の違い」を扱っているのが興味深いですね.

LLMエージェントによるエルファロル・バー問題の解析

発表者(主著):高田亮介さん 東京大学[4]

TL;DR: LLMエージェント20体にエルファロル・バー問題を解かせたら、誰も指示してないのに「バーに行きたい」欲求を持ち、ハッシュタグで盛り上がり、混雑しても「楽しいからOK!」と居座るという、理論的最適解より人間らしい振る舞いを自発的に見せた。


実験が行われたマス環境.中央の青い場所がバーらしい.確かにバー上部にエージェントが集まっている.[4:1]

Point:

  1. 「バーに行きたい」欲求の自発的発生

プロンプトには「バーがある」としか書いてないのに,エージェントたちが勝手にバーに向かい始めたようです.考察にもありますが,GPT-3.5の事前学習に「バー = 行きたい場所」という人間の行動パターンが刷り込まれているのだと考えられます.

  1. 理論的最適解より「楽しさ」を選んだ

60%の混雑閾値を超えても「みんなでワイワイ楽しい!」とバーに留まり続けたとあります.ゲーム理論的には失敗ですけど,人間っぽいですね.

Summary:

従来のゲーム理論エージェントは最適解を探すけど,LLMエージェントは「人間らしい非合理性」をみせていて,社会シミュレーションの新しい可能性を示していると思います.
完璧な合理性より,こういう「不完全さ」の方がリアルな人間社会のモデリングには向いているだろうし...

振り返り

今年修士を卒業し,松尾研究所にジョインしている尾崎ですが,JSAI参加は3度目ながら,全日参加は初めてのことで,そもそも発表をたくさん聞けたことがハッピーでした!

https://zenn.dev/mkj/articles/123b0f2ca63bbc

今回個人でも主著1件共著1件発表させていただきました.ともにLLMのベンチマーク系の発表になっています.今回初めて世界モデルセッションで発表・聴講させていただきました.その分野に明るくない側の人間なので質問対応など四苦八苦しましたが非常に勉強になりました.ただ世界モデルとLLMとの接地点を増やす本発表は取り組み自体,幾ばくか好評いただいき,面白い研究テーマを見つけたなという気持ちです.
今回ピックした研究についてですが以前からマルチエージェントシミュレーションには興味があって,教祖的研究であるスタンフォード大学のGenerative Agentsから始まり,多くの社会シミュレーション系の研究を見てきました.

Generative Agents: Interactive Simulacra of Human Behavior [5]
今回はLLMの応用セッションのいくつかに,マルチエージェントシミュレーションの発表があり,ピックアップさせていただきました.この辺の研究は,NLPやIPSJなどにはないJSAIならではな発表かなと思っておりまして,面白い分析,示唆があり,大変勉強させていただきました.
願わくば,枯渇する日本語テキストデータの合成の文脈でマルチエージェントを用いた社会シミュレーションを使っている研究があれば...といったところでしょうか.
それ以外にもシェイン・グウ氏らの万博コラボセッションを初め,例年以上に実りある学会参加となりました!

渡部

最終日のみの参加でしたのであまり発表は聞けませんでしたが、その中でも印象的で面白かったエージェント系の発表についてピックアップしました。松尾・岩澤研M1の今井さんの発表です。

エージェントタスクにおけるProcess Reward Modelの構築と探索手法への適用の有効性検証

発表者(主著):今井裕雅さん 東京大学 [6]

内容

  • 大規模言語モデル(LLM)を用いたエージェントタスクの多段階の意思決定において、数学タスクで有効性が確認されている「Process Reward Model(PRM)」を適用し、各ステップの行動を評価することで、探索に活用した際にタスクの達成精度が向上するかを検証した
    • Process Reward Model (PRM)とは
      • LLM の出力を最適化する際に最終応答だけでなく途中の推論プロセスにも報酬を与える
      • このPRMを用いると、各ステップの正しさや有益性を判断しつつ推論を前進させられるため、多段階推論において誤った経路へ進むリスクを抑えやすい
      • エージェントタスクの文脈では適応事例がない→エージェントタスクにおけるPRMの有効性を検証する
    • 手法
      • ステップごとの行動とそれに対する報酬値のデータセットを作成し、その報酬値を推定できるようにLLMを追加学習してPRMとして構築する。そして、それを用いた探索アルゴリズム(Beam Search)によって行動列を逐次的に絞り込みつつ最適なパスを選択することの有効性を明らかにする。また、(1)PRMを活用したBeamSearchによりビーム幅やビーム数を拡大するほどタスク達成率がスケーラブルに上昇するかどうか、(2)同等の計算量をかけた多数決(Majority Voting)型の探索手法と比較してより高精度であるかという2 つの観点で検証する
    • 結果
      • BeamSearchにおけるスケーラビリティ [6:1]
      • 多数決型の探索手法との比較 [6:2]
    • 今後の展望
      • 他の複雑なエージェントタスクへの適用や、数学タスクとエージェントタスクの性質の違いに注目した、エージェントタスク特有の探索手法の検討が必要

感想
数学タスクにおいては強化学習のみならずProcess Reward Modelに代表される探索手法が有効であることがわかっていたが、その探索手法がエージェントタスクにおいても有効かどうか検証した論文であり、新規性があると感じました。また、PRMを活用したBeam Searchのスーケラビリティの確認やMajority Votingとの比較も行っており、PRMの有効性もきちんと示せています。最終報酬が得られる環境下においてはモンテカルロ推定手法によって各ステップの行動の良し悪しを示すような報酬の設計ができることも知らなかったので、勉強になりました。最終報酬が得られるような設定ではPRMを用いたエージェントタスク設計が台頭してくると感じました。報酬が得られない設定であったり、最終報酬が得られたとしても選択できる行動が膨大な複雑な設定で、この手法をどのように適用していけば良いか気になりました。

振り返り

4月に新卒として入社した渡部です。JSAIの参加は初めてでした。最終日のみの参加でしたが、楽しかったです。
エージェントに関する発表も面白かったのですが、ブース対応も印象的でした。
国内学会の中でも大規模かつ有名ということもあり、優秀な学生や他の企業から鋭い質問が沢山飛んできました。
世界モデルについて、Turingさんのリサーチャーの方から取り組みについて聞けたり、アドバイスを頂けたりしたのが印象的でした。
有意義な議論を展開するためにも各プロジェクトの理解は大事だなと思いました。
短い時間の参加でしたが、勉強になりました。

髙田

Turing株式会社「Vision Language Modelで挑む自動運転AI」

ランチョンセミナー [7]

世界一の自動運転車メーカーを目指すTuring株式会社のランチョンセミナーに参加してきました.大人気のセミナーとなっており,初日の会場設営で早めに来場していたのでチケットを確保できたのですが,10時半ごろには早くも配布終了していたようです.
スピーカーはNEC中央研やCMU,LINEヤフーにてAIセキュリティの分野で研究されたのち,TuringでPrincipal Researcherを務める高橋さんです.Turingの目指す完全自動運転への道筋として,様々な研究成果を解説されました.代表的なものは

  • 日本語VLM「Heron-NVILA-Lite-15B/2B/1B
    • GENIACプロジェクトで開発した日本語VLMについて解説されました.
    • 2Bのモデルはスマホ上でも動き,app storeでHeronアプリを入れると試せます.
Heronを用いてiPhone上で推論した画像.Airpodsのことを言い当てている.


  • 世界最大の日本語視覚ー言語データセット「MOMIJI (Modern Open Multimodal Japanese filtered Dataset)」
    • 上記のVLMの学習のために作成したデータセットについても紹介されました.日本語のデータセットとしては最大規模でありながら,Huggingfaceで公開されています.
  • 世界モデル「Terra」
    • シミュレータ利用が期待されている自動運転世界モデルによる生成映像を見ることができました.学習データに無い事故映像を生成できている様子は世界初の成果だそうです.
  • VLAモデル
    • CARLAシミュレータ上でVLAによる自動運転のデモが行われており,実際に上手く交差点などを走行できている様子を見ることができました.
  • 時空間理解データセット
    • 上記の内容についてはTuringのYoutube動画テックブログなどで公表されていますが,今回の新情報としては時空間理解のためのデータセットについて紹介されました.時空間理解のために,画像に対して他車との位置関係や何秒後にどのようになっているかを言語でアノテーションしたデータセットでした.時空間の理解は苦手としている大規模モデルも多く,アーキテクチャで対策する組織もありますが,Turingではデータから準備しているのが印象的でした.

感想
自動運転は知能をもつ機械が大きく社会を変革する最初の例だと考えていて,個人的に強く興味をもっています.完全自動運転はまだ正解とされるアーキテクチャすら定まっていない分野であり,様々な組織が試行錯誤を重ねていて,動向を追いかけるだけで興味が尽きません.また,実世界で人間と相互作用して動作するという特徴から数多くのステークホルダーが関与しており,質疑応答ではハルシネーション対策や法改正への対応,倫理に至るまで様々な視点からの質問が飛び交いました.松尾研究所の立場としては,これらの多面的で複雑な問題を解決して未来の公道を闊歩するのはVLAなのか,純粋なEnd-to-Endモデルなのか,ルールベースとのハイブリッド型や全く新しいアーキテクチャなのか,考えさせられる発表でした.皆さんも予想してみませんか.

振り返り

4月に新卒入社しました髙田です.航空宇宙分野の強化学習応用のテーマで博士課程に在学中です.JSAIには初めて参加し,初日から3日目まで会場におりましたが,規模や参加者の層の厚さに圧倒されました.
Physical AI関連の発表も多く,自動運転プロジェクトに参加している立場から観て非常に興味深い話を数多く聞けました.ポスター発表にも面白いものが多く,根掘り葉掘り聞いて勉強させていただきました.さらに懇親会や企業ブースでの応対で様々な専門分野の方と議論でき,大変刺激になりました.ありがとうございました.

中村

私は、諸事情により最初の二日間のみ参加しました。その中でも特に面白かったVLMやWorld Modelなどマルチモーダルな情報を活用したロボット制御手法に関する研究を2つピックアップします

ロボット操作タスクにおけるマルチモーダルプロンプト解析

発表者(主著)高橋大輝さん 青山学院大学 [8]

TL;DR : VIMAモデルに対して残差接続と依存関係モデルリングを加えた新たなモデルの提案をした。そして、VIMAと提案モデルの入力データを変化させることによって、どのような性能差があるかを検証した。その結果、特定の入力モダリティへの変化や、入力順序の変化に対して脆弱であることが分かった。

面白いと感じた点は、2点あります。

  1. アクションの一貫性を損失関数で考慮している点

アクションの一貫性は、action chunking with transformerのようにアクションをチャンク化し予測を行う工夫が多いと感じていました。しかし、この研究では、逐次的な条件付き確率を計算することで前アクションを考慮し、損失計算をしているのは非常に面白いと思いました。

  1. 提案モデルが視覚情報を重要視している点

提案手法は、VIMAに残差接続を追加することによって、視覚情報をより細部まで保持することを目的としています。実際の結果では、言語情報をマスキングした時、従来のVIMAと比べて提案手法は成功率が高く、視覚情報をより正確に捉えることができていることを示唆しています。提案手法のマルチモーダルエンコーダー部分のアーキテクチャは、多くの他のアーキテクチャでも採用されているので、性能向上のオプションとして試したいと思いました。研究のみならず、開発の観点からも非常に興味深い研究だと感じました。


[8:1]より

世界モデルを利用したプレイデータ拡張による実ロボット制御

発表者(主著)野村優太 慶應義塾大学 [9]

TL;DR : 人間が好奇心を満たすようにロボットを操作し収集したデータであるプレイデータから世界モデルとポリシーを学習し、その世界モデルを用いてデータを拡張を行うことで、少量データで高い汎化性能を持つポリシーを構築可能であることが分かった。

世界モデルを活用して実世界でロボット制御をした研究です。ここでの世界モデルは、Dreamerなどとは異なり、現在の観測情報とロボットの次に行いたいアクションを用いて、環境のダイナミクスのみを学習するものです。

特に面白いと感じた点は、ポリシーを観測画像とゴール画像のInverse Dynamics予測をすることによって複雑な報酬設計を無視できている点です。これによって、ポリシーはあるタスクに特化した報酬に適合することなく、多様なタスクを解くことができます。また、世界モデルも報酬を予測する必要がなくなり、ダイナミクスの予測に専念することができます。しかし、この手法は、事前に学習したプレイデータの多様性や品質への依存とタスクを解く際にゴール画像を事前に用意する必要があると感じました。


[9:1]より

振り返り

4月に新卒入社しました中村です。今年3月に修士課程を卒業し、松尾研究所に入社しました。JSAIには初めて参加しましたが、想像していた学会の雰囲気とは異なり、パーティーに参加している気分でした。
学生や先生のアカデミック関係者以外にも多くの企業が参加しており、研究と企業の取り組みに関心のある自分にとっては非常に刺激的でより良い時間を過ごすことができました。また、論文や企業のブログを見てもわからないところを対面で深掘りながら、議論をすることができて非常に良い体験でした。参加させていただいた、松尾研究所には非常に感謝感激です。

まとめ

松尾研究所のデータサイエンティストがピックアップした聴講セッション、いかがでしたか?
今回我々のチームでは計70本弱のセッションを事前にターゲットし、現地参加のデータサイエンティストで手分けをしてそのうち約半数を聴講しました。今回ご紹介した論文以外にもたくさんの面白い研究と出会うことができとても有意義な学会となりました。
また聴講セッション以外でも研究所のブースにお越しいただいた研究者、学生の皆様と刺激的な会話ができたことも、現地参加ならではのハイライトだったと感じています。
今年は聴講メインで参加したものの、来年はポスター発表やセッション登壇を通じたアウトプットを積極的にしていきたいと思います!

最後になりますが、今回の記事で松尾研究所の活動に興味を持った方、あるいはJSAIの振り返りについてより詳しく聞きたい方は、6/18(水)に「松尾研データサイエンティストと振り返るJSAI2025」という題目でのオフラインMeet-Upを開催するので是非ご参加ください!

https://connpass.com/event/356747/

脚注
  1. JSAI2025 フィジカルAIシステムの研究開発 身体性に基づく知能の研究 ↩︎

  2. JSAI2025 大規模視覚言語モデルの開発 ↩︎

  3. JSAI2025 コレクティブLLMエージェントダイナミクス ↩︎ ↩︎ ↩︎

  4. JSAI2025 LLMエージェントによるエルファロル・バー問題の解析 ↩︎ ↩︎

  5. Generative Agents: Interactive Simulacra of Human Behavior ↩︎

  6. JSAI2025 エージェントタスクにおけるProcess Reward Modelの構築と探索手法への適用の有効性検証 ↩︎ ↩︎ ↩︎

  7. JSAI2025 Vision Language Modelで挑む自動運転AI ↩︎

  8. JSAI2025 ロボット操作タスクにおけるマルチモーダルプロンプト解析 ↩︎ ↩︎

  9. JSAI2025 世界モデルを利用したプレイデータ拡張による実ロボット制御 ↩︎ ↩︎

松尾研究所テックブログ

Discussion