👌
MDoCAgent! Agenticに資料読む力つけました!
どんなもの
- 5つのエージェントで資料解析能力Upした
- いままでとの違い
概要

1 テキストとイメージを分ける
2 質問に応じて、それぞれでトップkセグメントを取得する
3 まずは回答を作成とそこから重要情報を抜き出す
4 テキストとイメージの専門家が重要情報を使用して個別に答えを作る
5 まとめる

検索の動き説明。画像がページ毎にひとつしかないように見える

各エージェントで情報の受け渡しの仕方
実験結果

table1 : 各ベンチマークで全てMdocAgentが一位
table2 : アブレーションしてすべてのstageが貢献していることわかる

ソースの種類ごとの結果、ひとつだけ負けている

個別質問での結果例
思ったこと
エージェントといいつつ、ワークフローに見える(今日ななめ読みしただけだからagenticな動き理解できていないだけかも)
多分Agent的な動き追加したらもっとよくなるはず
あとがき
記事よかったら、いいね♡ 押してね!
Discussion