👌

MDoCAgent! Agenticに資料読む力つけました!

に公開

どんなもの

  • 5つのエージェントで資料解析能力Upした
  • いままでとの違い

概要


1 テキストとイメージを分ける
2 質問に応じて、それぞれでトップkセグメントを取得する
3 まずは回答を作成とそこから重要情報を抜き出す
4 テキストとイメージの専門家が重要情報を使用して個別に答えを作る
5 まとめる

検索の動き説明。画像がページ毎にひとつしかないように見える

各エージェントで情報の受け渡しの仕方

実験結果


table1 : 各ベンチマークで全てMdocAgentが一位
table2 : アブレーションしてすべてのstageが貢献していることわかる

ソースの種類ごとの結果、ひとつだけ負けている

個別質問での結果例

思ったこと

エージェントといいつつ、ワークフローに見える(今日ななめ読みしただけだからagenticな動き理解できていないだけかも)
多分Agent的な動き追加したらもっとよくなるはず

あとがき

記事よかったら、いいね♡ 押してね!

Discussion